

# JP2003348598

## Publication Title:

METHOD AND APPARATUS FOR MEMORY EFFICIENT COMPRESSED DOMAIN VIDEO PROCESSING AND FOR FAST INVERSE MOTION COMPENSATION USING FACTORIZATION AND INTEGER APPROXIMATION

## Abstract:

Abstract of JP2003348598

&lt;P&gt;PROBLEM TO BE SOLVED: To provide a method and apparatus for memory efficient compressed domain video processing and for fast inverse motion compensation using factorization and integer approximation. &lt;P&gt;SOLUTION: A method for reducing memory requirements needed to decode a bit stream comprises: receiving a video bit stream; decoding the frame of the bit stream into a discrete cosine transform (DCT) domain representation; identifying non-zero coefficients of the DCT domain representation; assembling a hybrid data structure; and inserting the nonzero coefficients of the DCT domain representation into the hybrid data structure. A method for performing inverse motion compensation is provided. The method initiates with receiving a video bit stream, and then, a transform matrix type is identified. The transform matrix type is either a half pixel matrix or a full pixel matrix. If the transform matrix type is a half pixel matrix, then the method includes applying a factorization technique to decode the bit stream corresponding to the half pixel matrix. If the transform matrix type is a full pixel matrix, then the method includes applying an integer approximation technique to decode the bit stream corresponding to the full pixel matrix. &lt;P&gt;COPYRIGHT: (C)2004,JPO

Data supplied from the esp@cenet database - Worldwide

---

Courtesy of <http://v3.espacenet.com>

(19)日本国特許庁 (J P)

(12) 公開特許公報 (A)

(11)特許出願公開番号

特開2003-348598

(P2003-348598A)

(43)公開日 平成15年12月5日(2003.12.5)

(51) Int.Cl. 7  
H 04 N 7/32  
H 03 M 7/36  
7/40

### 識別記号

F I  
H 0 3 M 7/36  
7/40  
H 0 4 N 7/137

テーマコード(参考)  
5C059  
5J064

審査請求 未請求 請求項の数65 OL 外国語出願 (全 97 頁)

(21)出願番号 特願2003-107352(P2003-107352)

(22)出願日 平成15年4月11日(2003.4.11)

(31)優先権主張番号 10/319775

(32)優先日 平成14年12月13日(2002.12.13)

(33)優先権主張国 米国(US)

(31)優先権主張番号 10/319747

(32)優先日 平成14年12月13日(2002.12.13)

(33)優先権主張国 米国(US)

(31)優先権主張番号 60/372207

(32)優先日 平成14年4月12日(2002.4.12)

(33)優先権主張国 米国(US)

(71)出願人 000002369  
セイコーユーポン株式会社  
東京都新宿区西新宿2丁目4番1号  
(72)発明者 ウィリアム チェン  
アメリカ合衆国 カリフォルニア州 フォ  
スタシティ ロック ハーバー レーン  
138  
(74)代理人 100095728  
弁理士 上柳 雅義 (外2名)

最終頁に続く

(54) 【発明の名称】 メモリ効率のいい圧縮領域ビデオ処理のための且つ因数分解及び整数近似法を用いる高速逆動き補償のための方法並びに装置

(57) 【要約】

【課題】 メモリ効率のいい圧縮領域映像処理のための且つ因数分解及び整数近似法を用いる高速逆動き補償のための方法並びに装置

【解決手段】 ビットストリームを復号化するのに要するメモリ所要量を減らすための方法。この方法はビデオビットストリームを受け取り、ビットストリームのフレームが離散コサイン変換（DCT）領域表現に復号化される。次に、そのDCT領域表現の非零係数が識別され、ハイブリッドデータ構造がアセンブルされ、DCT領域表現の非零係数がハイブリッドデータ構造に挿入される。また、逆動き補償を実行するための方法では、ビデオビットストリームを受け取て、変換行列タイプが識別される。変換行列タイプは、半画素行列が完全画素行列かのどちらかで、変換行列タイプが半画素行列ならば、その半画素行列に対応するビットストリームを復号化する因数分解技法を適用し、変換行列タイプが完全画素行列ならば、完全画素行列に対応するビットストリームを復号化する整数近似技法を適用する。



【特許請求の範囲】

【請求項1】 ビットストリームを復号化するのに要するメモリ所要量を低減するための方法であって、ビデオビットストリームを受け取り、前記ビットストリームのフレームを変換領域表現に復号化し、前記変換領域表現の非零係数を識別し、固定サイズアレイ及び可変サイズオーバーフローベクトルを含むハイブリッドデータ構造をアセンブルし、前記変換領域表現の非零係数を前記ハイブリッドデータ構造の中に挿入することからなることを特徴とする方法。

【請求項2】 前記ビデオビットストリームは、低レートビデオビットストリームであることを特徴とする請求項1に記載の方法。

【請求項3】 前記ビットストリームのフレームを変換領域表現に復号化するオペレーションは、可変長デコード及び反量子化ブロックを通る前記ビットストリームを処理することを含むことを特徴とする請求項1に記載の方法。

【請求項4】 前記固定サイズアレイは固定サイズブロックを含むことを特徴とする請求項1に記載の方法。

【請求項5】 前記固定サイズブロックは、前記変換領域表現の8つの非零係数を保持するように構成されていることを特徴とする請求項4に記載の方法。

【請求項6】 前記変換領域表現の非零係数をハイブリッドデータ構造に挿入するオペレーションは、フレームのブロック毎に、固定サイズアレイの中の係数を可変サイズオーバーフローベクトルの中の対応する係数に写像することを含むことを特徴とする請求項1に記載の方法。

【請求項7】 ビデオデータを復号化するための方法であって、圧縮ビットストリーム内のビデオデータのフレームを受け取り、前記フレームのブロックを圧縮領域で変換領域表現に復号化し、ハイブリッドデータ構造を定義し、前記変換領域表現と関連付けられるデータを前記ハイブリッドデータ構造に保持し、前記変換領域表現と関連付けられるデータに逆動き補償を前記圧縮領域で実行し、前記データに逆動き補償を実行した後、表示するためにデータを解凍することからなることを特徴とする方法。

【請求項8】 前記ハイブリッドデータ構造は、固定サイズブロックからなる固定サイズアレイ及び可変サイズオーバーフローベクトルを含んでいることを特徴とする請求項7に記載の方法。

【請求項9】 前記変換領域表現と関連付けられるデータをハイブリッドデータ構造に保持するオペレーション

は、

前記変換領域表現の非零係数を識別し、前記固定サイズブロックの容量に達するまで、前記非零係数を前記ハイブリッドデータ構造の固定サイズアレイの固定サイズブロックの中に保持し、前記固定サイズブロックの容量に達した後は、固定サイズブロックの容量を超える非零係数をオーバーフローベクトルに保持することを含むことを特徴とする請求項7に記載の方法。

【請求項10】 前記圧縮ビットストリームは、低レートビットストリームであることを特徴とする請求項7に記載の方法。

【請求項11】 前記変換領域表現と関連付けられるデータに逆動き補償を圧縮領域で実行するオペレーションは、

前記変換領域表現と関連付けられるデータに、ハイブリッド因数分解及び整数近似技法を適用することを含むことを特徴とする請求項7に記載の方法。

【請求項12】 ハイブリッドデータ構造に保持するために低レートビットストリームを並べ替えるためのプログラム命令を有するコンピュータ可読メディアであって、

データフレームの符号化されたブロックと関連付けられる非零変換係数を識別するためのプログラム命令と、前記非零変換係数を固定サイズアレイに配列するためのプログラム命令と、

前記非零変換係数の数量が前記固定サイズアレイの容量を超えているかどうかを判定するためのプログラム命令と、

前記固定サイズアレイの容量を超える非零変換係数を可変サイズオーバーフローベクトルに保持するためのプログラム命令と、

前記非零変換係数を圧縮領域から空間領域に平行移動させる(translate)するためのプログラム命令とを含むことを特徴とするコンピュータ可読メディア。

【請求項13】 前記固定サイズアレイは、複数の固定サイズブロックを含むことを特徴とする請求項12に記載のコンピュータ可読メディア。

【請求項14】 前記固定サイズブロックは各々、8つの非零変換係数を保持するように構成されていることを特徴とする請求項13に記載のコンピュータ可読メディア。

【請求項15】 データフレームのブロック毎に、前記固定サイズアレイの係数を、可変サイズオーバーフローベクトルの対応する係数に写像するためのプログラム命令をさらに含むことを特徴とする請求項12に記載のコンピュータ可読メディア。

【請求項16】 ハイブリッド因数分解及び整数近似技法を用いて前記非零変換係数に逆動き補償を実行するためのプログラム命令をさらに含むことを特徴とする請求

項12に記載のコンピュータ可読メディア。

【請求項17】 回路であって、  
ビデオデコーダ集積回路チップからなり、当該ビデオデ  
コーダ集積回路チップは、  
ビデオデータのフレームと関連付けられるデータのビッ  
トストリームを受け取るための回路構成(circuitry)  
と、  
前記データのビットストリームを変換領域表現に復号化  
するための回路構成と、  
前記ビデオデコーダと関連付けられるメモリの中に前記  
変換領域表現の非零変換係数をハイブリッドデータ構造  
配列にするための回路構成と、  
表示するために前記変換領域表現の非零変換係数を解凍  
するための回路構成とを含むことを特徴とする回路。

【請求項18】 前記ビットストリームは、H.263ビッ  
トストリームであることを特徴とする請求項17に記載  
の回路。

【請求項19】 前記メモリは、前記ビデオデコーダ集  
積回路チップとは別になっていることを特徴とする請求  
項17に記載の回路。

【請求項20】 ハイブリッド因数分解及び整数近似技  
法により逆動き補償を実行するための回路構成をさらに  
備えることを特徴とする請求項17に記載の回路。

【請求項21】 前記メモリは、スタティックランダム  
アクセスメモリであることを特徴とする請求項17に記  
載の回路。

【請求項22】 ビデオ画像を表示するように構成され  
た機器であって、  
中央処理機構(CPU)と、  
ランダムアクセスメモリ(RAM)と、  
画像を表示するように構成されたディスプレイ画面と、  
ビデオビットストリームを変換領域表現に変換するよう  
に構成されたデコーダ回路構成とからなり、当該デコー  
ダ回路構成は、変換領域表現の非零変換係数を、デコー  
ダ回路構成と関連付けられたメモリの中にハイブリッド  
データ構造配列にする能力を有し、前記デコーダ回路構  
成は逆動き補償時にハイブリッド因数分解／整数近似技  
法を選択的に適用するための回路構成を含み、さらに、  
前記CPU、前記RAM、前記ディスプレイ画面、及び前記デ  
コーダ回路構成と通信しているバスとからなることを特  
徴とする機器。

【請求項23】 前記機器は、携帯用電子機器であるこ  
とを特徴とする請求項22に記載の機器。

【請求項24】 前記携帯用電子機器は、パーソナルデ  
ィジタルアシスタント、セルラー電話、ウェブタブレッ  
ト、及びポケットパソコンから構成されるグループから  
選択されることを特徴とする請求項23に記載の機器。

【請求項25】 前記ハイブリッドデータ構造は、複数  
の固定サイズブロックを有する固定サイズアレイと、可  
変サイズオーバーフローベクトルとを含むことを特徴と

する請求項22に記載の機器。

【請求項26】 前記複数の固定サイズブロックは各  
々、8つの非零変換係数を保持するように構成されてい  
ることを特徴とする請求項25に記載の機器。

【請求項27】 8を超える非零変換係数は、前記可変  
サイズオーバーフローベクトルの中に保持されることを  
特徴とする請求項26に記載の機器。

【請求項28】 前記デコーダ回路構成は、前記ハイブ  
リッドデータ構造と関連付けられるデータを保持するよ  
うに構成されたオンチップメモリを含むことを特徴とす  
る請求項22に記載の機器。

【請求項29】 前記逆動き補償時にハイブリッド因数  
分解／整数近似技法を選択的に適用するための回路構成  
は、

ビデオ画像のフレームのブロックを、活動中の動き及び  
非活動中の動きのうちの一つと関連付けられると、識別  
するための回路構成と、

活動中の動きエリアと関連付けられたブロックには因数  
分解技法を適用する一方、非活動中の動きエリアと関連  
付けられたブロックには整数近似技法を適用することに  
よって、逆動き補償を実行するための回路構成とを含む  
ことを特徴とする請求項22に記載の機器。

【請求項30】 前記ビデオビットストリームは、低レ  
ートビデオビットストリームであることを特徴とする請  
求項22に記載の機器。

【請求項31】 逆メモリ補償を実行するための方法で  
あって、

ビデオビットストリームを受け取り、  
半画素行列及び完全画素行列から構成されるグループから  
選択された変換行列タイプを識別し、  
前記変換行列タイプが半画素行列ならば、  
前記半画素行列に対応するビットストリームを復号化す  
るために因数分解技法を適用し、  
前記変換行列タイプが完全画素行列ならば、  
前記完全画素行列に対応するビットストリームを復号化  
するために整数近似技法を適用することからなることを  
特徴とする方法。

【請求項32】 前記ビデオビットストリームは、低レ  
ートビデオビットストリームであることを特徴とする請  
求項31に記載の方法。

【請求項33】 前記半画素行列に対応するビットスト  
リームを復号化するために因数分解技法を適用するオペ  
レーションは、

前記半画素行列を疎行列の列に因数分解することを含  
み、当該疎行列は順序行列及び対角行列を含むことを特  
徴とする請求項31に記載の方法。

【請求項34】 前記完全画素行列に対応するビットス  
トリームを復号化するために整数近似技法を適用するオ  
ペレーションは、

前記完全画素行列の各要素を2進数と近似することを含

むことを特徴とする請求項31に記載の方法。

【請求項35】 各要素は、一番近い2乗に丸められることを特徴とする請求項34に記載の方法。

【請求項36】 ビデオデータを復号化するための方法であって、

圧縮ビットストリーム内のビデオデータのフレームを受け取り、

前記フレームのブロックを圧縮領域で変換領域表現に復号化し、

前記変換領域表現と関連付けられるデータをハイブリッドデータ構造に保持し、

前記圧縮領域で前記変換領域表現と関連付けられるデータに逆動き補償を実行することからなり、当該逆動き補償を実行することは、

前記ビデオデータフレームの一部分と関連付けられる変換行列のタイプを判定し、

逆動き補償を向上させるためにハイブリッド因数分解及び整数近似技法を適用することを含むことを特徴とする方法。

【請求項37】 前記圧縮ビットストリームは、H.263、H.261、Motion Picture Expert Groupから構成されるグループから選択された規格と関連付けられることを特徴とする請求項36に記載の方法。

【請求項38】 前記ハイブリッドデータ構造は、固定サイズアレイと、可変サイズオーバーフローべクトルとを含むことを特徴とする請求項36に記載の方法。

【請求項39】 前記変換行列のタイプは、半画素行列及び完全画素行列からなるグループから選択されることを特徴とする請求項36に記載の方法。

【請求項40】 前記半画素行列は画像の高度の動き領域と関連付けられる一方、前記完全画素行列は画像の最小動き領域と関連付けられることを特徴とする請求項39に記載の方法。

【請求項41】 前記逆動き補償を向上させるためにハイブリッド因数分解及び整数近似技法を適用するオペレーションは、

フレームの高動き領域に対応するブロックと関連付けられる行列に因数分解技法を適用し、

フレームの残りのブロックに整数近似技法を適用することを含むことを特徴とする請求項36に記載の方法。

【請求項42】 前記圧縮ビットストリームは低レートビットストリームであることを特徴とする請求項36に記載の方法。

【請求項43】 圧縮領域で逆動き補償を実行するためのプログラム命令を有するコンピュータ可読メディアであって、

変換行列を識別するためのプログラム命令と、

前記変換行列が半画素行列及び完全画素行列のうちの一つであるかどうかを判定するためのプログラム命令と、半画素行列に対応するビットストリームのブロックを復

号化する因数分解技法を適用するためのプログラム命令と、

完全画素行列に対応するビットストリームのブロックを復号化する整数近似技法を適用するためのプログラム命令とからなることを特徴とするコンピュータ可読メディア。

【請求項44】 前記逆動き補償を実行するためのプログラム命令は、圧縮領域で実行されることを特徴とする請求項43に記載のコンピュータ可読メディア。

【請求項45】 動きベクトルデータを抽出するためのプログラム命令をさらに含み、当該動きベクトルデータは変換行列を半画素行列及び完全画素行列のうちの一つとして識別することを特徴とする請求項43に記載のコンピュータ可読メディア。

【請求項46】 符号化されたデータフレームブロックと関連付けられる非零変換係数をハイブリッドデータ構造に配列するためのプログラム命令をさらに含むことを特徴とする請求項43に記載のコンピュータ可読メディア。

【請求項47】 前記完全画素行列に対応するビットストリームのブロックを復号化する整数近似技法を適用するためのプログラム命令は、

完全画素行列の各要素を2進数と近似するためのプログラム命令を含むことを特徴とする請求項43に記載のコンピュータ可読メディア。

【請求項48】 前記半画素行列に対応するビットストリームのブロックを復号化する因数分解技法を適用するためのプログラム命令は、

半画素行列を疎行列の列に因数分解するためのプログラム命令を含み、当該疎行列は順序行列及び対角行列を含むことを特徴とする請求項43に記載のコンピュータ可読メディア。

【請求項49】 回路であって、  
ビデオデータを復号化するように構成された集積回路チップからなり、当該集積回路チップは、

ビデオデータのフレームと関連付けられるデータのビットストリームを受け取るための回路構成と、

前記データのビットストリームを変換領域表現に復号化するための回路構成と、

変換行列のタイプを識別するための回路構成と、

ハイブリッド因数分解及び整数近似技法により逆動き補償を実行するための回路構成とを含むことを特徴とする回路。

【請求項50】 前記集積回路チップはさらに、  
前記変換領域表現の非零変換係数をハイブリッドデータ構造に配列するための回路構成を有することを特徴とする請求項49に記載の回路。

【請求項51】 前記ビットストリームは低レートビットストリームであることを特徴とする請求項49に記載の回路。

【請求項52】 前記ハイブリッド因数分解及び整数近似技法により逆動き補償を実行するための回路構成は、半画素変換行列には因数分解技法を適用し、完全画素変換行列には整数近似技法を適用するように構成されていることを特徴とする請求項49に記載の回路。

【請求項53】 さらに、前記集積回路チップと通信しているメモリを含むことを特徴とする請求項49に記載の回路。

【請求項54】 前記因数分解及び整数近似技法はデータに対して圧縮領域で用いられる特徴とする請求項49に記載の回路。

【請求項55】 ビデオデコーダであって、入ってくるビットストリームから係数値及び動きベクトルデータを抽出するように構成された可変長デコーダ(VLD)を有し、

前記可変長デコーダと通信している反量子化ブロックを有し、当該反量子化ブロックは前記係数値をスケーリングし直すように構成されており、

前記反量子化ブロックと通信している下流のブランチを有し、当該下流ブランチは誤差係数を空間領域に復号化するように構成されており、

前記反量子化ブロックと通信している上流ブランチを有し、当該上位ブランチは内部変換領域表現を維持するように構成され、前記上流ブランチは、現ブロックを再構築するために、前記復号化された誤差係数に加算されることができる空間領域出力を生成するように構成されていることを特徴とするビデオデコーダ。

【請求項56】 前記ビデオデコーダはソフトウェアとして実行されていることを特徴とする請求項55に記載のビデオデコーダ。

【請求項57】 前記ビデオデコーダはハードウェアとして実行されていることを特徴とする請求項55に記載のビデオデコーダ。

【請求項58】 前記入ってくるビットストリームは低レートビットストリームであることを特徴とする請求項55に記載のビデオデコーダ。

【請求項59】 前記上流ブランチはフィードバックループを含み、当該フィードバックループは、フレームバッファ、動き補償ブロック、離散コサイン変換ブロックを含むことを特徴とする請求項55に記載のビデオデコーダ。

【請求項60】 前記下流ブランチは、ランレンジス復号ブロック及び逆補償ブロックを含むことを特徴とする請求項55に記載のビデオデコーダ。

【請求項61】 逆動き補償のオペレーションは圧縮領域で実行されることを特徴とする請求項55に記載のビデオデコーダ。

【請求項62】 前記変換領域表現の非零係数は、メモリ所要量を減らすために、ビデオデコーダと関連付けられるメモリの中にハイブリッドデータ構造で配列される

ことを特徴とする請求項55に記載のビデオデコーダ。

【請求項63】 前記ハイブリッドデータ構造は、固定サイズアレイ及び可変サイズオーバーフローベクトルを含むことを特徴とする請求項62に記載のビデオデコーダ。

【請求項64】 前記逆動き補償は、ハイブリッド因数分解及び整数近似技法を含むことを特徴とする請求項61に記載のビデオデコーダ。

【請求項65】 前記ハイブリッド因数分解及び整数近似技法は、半画素変換行列には因数分解技法を適用し、完全画素変換行列には整数近似技法を適用するように構成されていることを特徴とする請求項64に記載のビデオデコーダ。

【発明の詳細な説明】

#### 【0001】

【発明の属する技術分野】本発明は、一般的には、デジタルビデオ技術に関し、より具体的には、効率的なメモリ圧縮法を実現するための方法及び装置に関すると共に、圧縮領域ビデオデコーダのための効率的な逆動き補償法を実現するための方法及び装置に関する。

#### 【0002】

【従来の技術】セルラー電話やパーソナルデジタルアシスタントといったモバイル端末でのビデオアクセスでは、モバイルシステムの性質上の限界があるために、数多くの難しい課題に出くわす。例えば、低消費電力型のハンドヘルド機器は、バンド幅、電力、メモリ、及びコスト上の必要条件により制約を受ける。こうしたハンドヘルド機器で受信されるビデオデータはビデオデコーダにより復号化される。そうした端末と関連付けられるビデオデコーダは、空間領域、つまり、解凍領域で動き補償を実行する。H.263、H261、MPEG1/2/4といったビデオ圧縮規格は、低ビットレートでビデオを符号化するのに動き補償型離散コサイン変換(DCT)スキームを用いる。ここで採用している低ビットレートとは、秒毎約6.4キロビット未満のビットレートのことである。DCTスキームでは、時間的な冗長度を削除するために動き予測(ME)及び動き補償(MC)を用いる一方、それ以外の空間的冗長度を削除するためにDCTを用いる。

【0003】図1は、ビデオデータを復号化すると共に、空間領域で動き補償を実行するためのビデオデコーダの概略図である。ビットストリーム102がデコーダ100によって受け取られる。デコーダ100には、可変デコーダ(VLD)ステージ104と、ランレンジスデコーダ(RLD)ステージ106、反量子化(DQ)ステージ108、逆離散コサイン変換(IDCT)ステージ110、動き補償(MC)ステージ112、及びフレームバッファとも呼ばれるメモリ(MEM)114がある。最初の4ステージ(VLD104、RLD106、DQ108、IDCT110)は、圧縮されているビットストリームを復号化して画素領域に戻す。イントラコード化された(intrac

oded) ブロックでは、現フレームの中でブロックを再構築するために最初の4ステージ、つまり、104、106、108、110の出力が直接用いられる。インターコード化された(intercoded) ブロックでは、出力が予測誤差を表しており、現フレームの中でブロックを再構築するためにその前のフレームから作られた予測に出力が付加される。よって、現フレームはブロック単位で再構築される。最終的に、現フレームがデコーダ、つまり、ディスプレイ 116 の出力に送られると共に、フレームバッファ(MEM) 114 にも保持される。

【0004】MEM 114 は、動き補償 112 に必要な既に復号化されている画像(picture)を保持している。MEM 114 のサイズは、入ってくる画像フォーマットに応じてスケーリングしなければならない。例えば、H.263 は5つの規格化された画像フォーマット、すなわち、(1.) 1/4以下(sub-quarter) 共通中間フォーマット(サブQCIF)、(2.) 1/4共通中間フォーマット(QCIF)、(3.) 共通中間フォーマット(CIF)、(4.) 4CIF、及び(5.) 16CIF、をサポートしている。各フォーマットは、画像の幅及び高さだけでなく、アスペクト比も定義する。広く知られているように、画像は1つの輝度成分及び2つの色差成分(Y, Cr, Cb)としてコード化される。それらの成分は4:2:0の構成でサンプリングされ、各成分は画素あたり8ビット分解能を有する。例えば、図1のビデオデコーダは、CIFフォーマットのH.263 ビットストリームを復号化しながら、MEM 114 のために約200キロバイトのメモリを割り当てなければならない。さらに、ビデオ会議システムで欠かせないように、複数のビットストリームが一度に復号化される場合、メモリ需要が大きくなりすぎる。

【0005】MEM 114 は、ビデオデコーダ 100 の中で唯一最大のメモリ使用源である。メモリ使用を軽減するために、入ってくるビットストリームの色成分の分解能を低下させることができが一つのアプローチとして考えられる。例えば、モバイル端末上のカラー表示の濃度が65.5 36色しか表示できないとしたら、色成分(Y, Cr, Cb)の分解能を画素につき24ビットから16ビットに低下させることができる。この技法は、可能性としては、メモリ使用度を30%減らすことができるけれども、ビデオデコーダで回路的に対応しなければならないディスプレイ依存型ソリューションである。また、この技法は、ピーク信号対雑音比(PSNR)要件を変えて簡単にスケーリングすることができないので、自由度がない。

【0006】空間領域でデータに操作を行なうには、圧縮領域処理と比べ、より大きなメモリ容量が要る。空間領域では、動き補償を算出すると共に連続フレームの画像に動き補償をかけることが容易である。しかしながら、圧縮領域で操作している場合、動き補償は、誤差値がもはや空間値ではなくなるから、つまり、圧縮領域で操作している時の誤差値は画素値ではないから、動きベ

クトルが前のフレームを示すのと比べてそれほど明快ではない。その上に、圧縮領域データを効率的に処理する能力を有する方法がない。先行技術のアプローチは主に、圧縮領域をトランスコード化し、スケーリングし、鮮鋭化する各アプリケーションを中心している。さらに、圧縮領域対応の逆補償用アプリケーションは、ピーク信号対雑音比(PSNR)の性能が貧弱になる傾向があると同時に、1秒あたりに表示可能なフレーム量の点から、応答時間が受容れ難いほど遅い。

#### 【0007】

【特許文献1】米国再発行特許発明第6,240,210号明細書

【特許文献2】米国特許第6,157,740号明細書

#### 【0008】

【発明が解決しようとする課題】そこで、低ビットレートのビデオデータを復号化するに要するメモリ所要量を最小限にする方法並びに装置を提供すると共に、圧縮領域ビデオレコーダの高速且つ効率的な逆動き補償を可能にする方法並びに装置を提供するべく、先行技術が抱える問題を解決する必要がある。

#### 【0009】

【課題を解決するための手段】おおまかに言えば、本発明は、ハイブリッドデータ構造を採用することによりメモリ所要量を最小限にするように構成されたビデオデコーダを提供することで、こうしたニーズの少なくとも一つの局面を満たすものである。なお、本発明のこの態様は、方法、システム、コンピュータ可読媒体、又はデバイスなど、いろいろな方法で実現することができる。本発明のこの態様の実施例を以下にいくつか説明する。

【0010】1実施例において、ビットストリームを復号化するに要するメモリ所要量を低減するための方法を提供する。この方法は、ビデオビットストリームを受け取ることから始まる。次に、そのビットストリームのフレームが変換(例えば、離散コサイン変換(DCT))領域表現に復号化される。次に、その変換領域表現の非零係数が識別される。次に、ハイブリッドデータ構造がアセンブルされる。このハイブリッドデータ構造は、固定サイズのアレイ及び可変サイズのオーバーフローべクトルを含んでいる。次に、変換領域表現の非零係数がハイブリッドデータ構造の中に挿入される。

【0011】別の実施例において、ビデオデータを復号化するための方法を提供する。この方法は、圧縮されたビットストリーム内のビデオデータのフレームを受け取ることから始まる。次に、そのフレームのブロックが、圧縮領域で変換(例えば、DCT)領域表現に復号化される。次に、ハイブリッドデータ構造が定義される。次に、その変換領域表現と関連付けられるデータがハイブリッドデータ構造で保持される。次に、圧縮領域で変換領域表現と関連付けられるデータに対して逆動き補償が実行される。データに逆動き補償を行なった後、表示す

るためにデータが解凍される。

【0012】また別の実施例において、低レートのビットストリームデータをハイブリッドデータ構造で保持するべく並べ替えるためのプログラム命令を有するコンピュータ可読媒体を提供する。このコンピュータ可読媒体には、データフレームの符号化されたブロックと関連付けられる非零変換（例えば、DCT）係数を識別するためのプログラム命令が入っている。その非零変換係数を固定サイズアレイに配列するためのプログラム命令が入っている。非零変換係数の数量が固定サイズアレイの容量を超えたかどうか判定するためのプログラム命令を提供する。固定サイズアレイの容量を超える非零変換係数を可変サイズオーバーフローべクトルで保持するためのプログラム命令、及び非零変換係数を圧縮領域から空間領域に平行移動させる（translate）ためのプログラム命令を含んでいる。

【0013】さらに別の実施例において、回路を提供する。この回路は、ビデオデコーダ集積回路チップを有する。このビデオデコーダ集積回路チップは、ビデオデータのフレームと関連付けられるデータのビットストリームを受け取るための回路構成を含む。ビデオデコーダには、データのビットストリームを変換（例えば、DCT）領域表現に復号化するための回路構成が入っている。変換領域表現の非零変換係数を、ビデオデコーダと関連付けられるメモリの中のハイブリッドデータ構造で配列するための回路構成を提供する。表示するために、変換領域表現の非零変換係数を解凍するための回路構成も提供する。

【0014】別の実施例において、画像を表示するように構成された機器を提供する。この機器は、中央処理機構（CPU）、ランダムアクセスメモリ（RAM）、及び画像を表示するように構成されたディスプレイ画面とを含む。ビデオビットストリームを変換（例えば、DCT）領域表現に変換するように構成されたデコーダ回路構成を含む。このデコーダ回路は、変換領域表現の非零変換係数を、デコーダ回路と関連付けられるメモリの中にハイブリッドデータ構造で配列する能力を有する。デコーダ回路には、逆動き補償時に、ハイブリッド因数分解／整数近似の技法を選択的に適用するための回路構成が入っている。CPU、RAM、表示画面、及びデコーダ回路と通信しているバスも有する。

【0015】大まかに言えば、本発明は、メモリ所要量を低減すると同時に一応満足できるビデオ画質を提供し、それと同時に、圧縮領域で逆動き補償を実行する能力を有するビデオデコーダを提供することにより、こうしたニーズの少なくとも別の局面を満たすものである。なお、本発明のこの態様は、方法、システム、コンピュータ可読媒体、又は機器など、いろいろな方法で実現することができる。本発明のこの態様の実施例についていくつか以下に説明する。

【0016】一つの実施例において、逆メモリ補償を実行するための方法を提供する。この方法は、ビデオビットストリームを受け取ることから始まる。次に、変換行列タイプが識別される。この変換行列タイプは、半画素行列か完全画素行列かのどちらかである。この方法は、変換行列タイプが半画素行列ならば、その半画素行列に対応するビットストリームを復号化する因数分解技法を適用することを含む。変換行列タイプが完全画素行列ならば、その完全画素行列に対応するビットストリームを復号化する整数近似技法を適用することを含む。

【0017】別の実施例において、ビデオデータを復号化するための方法を提供する。この方法は、圧縮されたビットストリーム内のビデオデータのフレームを受け取ることから始まる。次に、そのフレームのブロックが変換（例えば、離散コサイン変換（DCT））領域表現に圧縮領域で復号化される。次に、その変換領域表現と関連付けられるデータがハイブリッドデータ構造で保持される。次に、その圧縮領域で変換領域表現と関連付けられるデータに逆動き補償が実行される。逆動き補償の実行には、ビデオデータのフレームの一部と関連付けられる変換行列のタイプを決めることと、逆動き補償を向上させるためにハイブリッド因数分解及び整数近似技法を適用することが含まれる。

【0018】また別の実施例において、圧縮領域で逆動き補償を実行するためのプログラム命令を有するコンピュータ可読メディアを提供する。このコンピュータ可読メディアには変換行列を識別するためのプログラム命令が入っている。変換行列が半画素行列か或いは完全画素行列かを判定するためのプログラム命令が入っている。半画素行列に対応するビットストリームのブロックを復号化する因数分解技法を適用するためのプログラム命令並びに完全画素行列に対応するビットストリームのブロックを復号化する整数近似技法を適用するためのプログラム命令を含んでいる。

【0019】さらに別の実施例において、回路を提供する。この回路には、ビデオデータを復号化するように構成された集積回路チップがある。この集積回路チップは、ビデオデータのフレームと関連付けられるデータのビットストリームを受け取るための回路構成を含んでいる。集積回路チップには、データのビットストリームを変換（例えば、DCT）領域表現に復号化するための回路構成が搭載されている。変換行列のタイプを識別するための回路構成並びにハイブリッド因数分解及び整数近似技法によって逆動き補償を実行するための回路構成が集積回路チップに搭載されている。

【0020】別の実施例において、ビデオデコーダを提供する。このビデオデコーダは、入ってくるビットストリームから係数値及び動きベクトルデータを抽出するように構成された可変長デコーダ（VLD）を含んでいる。VLDと通信している反量子化ブロックを有する。この反量

子化ブロックは、係数値をスケーリングし直すように構成されている。その反量子化ブロックと通信している下流のブランチが設けられている。この下流ブランチは誤差係数を空間領域に復号化するように構成されている。反量子化ブロックと通信している上流のブランチを含んでいる。この上流ブランチは、内部変換（例えば、DCT）領域変換を維持するように構成されている。上流ブランチはさらに、現ブロックを再構築するために復号化された誤差係数に加算されることが可能な空間領域出力を生成するように構成されている。

【0021】本発明のその他の態様並びに効果は、発明の原理を例を挙げて示した添付の図面と共に、以下に述べる詳細な説明から明白になる。

#### 【0022】

【発明の実施の形態】本発明を、圧縮領域ビデオ復号化に要するメモリ容量を最小限にするためのシステム、装置、及び方法として説明する。しかしながら、当業者ならば、以下の説明に鑑みて、以下に説明する詳細を部分的に又は全く知らなくても本発明を実施できることが分かる。また、本発明を不要に不明瞭なものにしないために、既によく知られているプロセスオペレーションについては詳細に説明しない。図1については、「従来の技術」の項で説明した。本明細書で使用している「約」という言葉は、基準値の+/-10%のことである。

【0023】ここで説明する実施例は、圧縮領域でビデオデータを復号化する際に使用されるメモリの低減を可能にするデータ構造を提供する。1実施例では、周波数領域、つまり、圧縮領域で、現フレームが保持され、逆動き補償が実行されるように、ビデオ復号化パイプラインが並べ替えられている。ハイブリッドデータ構造は、計算コストやデータの有意な損失なしに、圧縮領域でのデータの操作を可能にする。1実施例において、ハイブリッドデータ構造は符号化されたブロックの中に非零離散コサイン変換（DCT）係数はほんのわずかしかないという事実を利用している。従って、フレーム全体の非零DCT係数だけが保持されるので、メモリ所要量を低減することができる。以下により詳細に説明するように、ハイブリッドデータ構造は固定サイズのアレイと可変サイズのオーバーフローベクトルとを含んでいる。可変サイズオーバーフローベクトルは、固定サイズアレイの容量を超える符号化されたブロックの非零DCT係数を保持する。

【0024】図2は、本発明の1実施例による、逆動き補償が実行されるように配置構成されたビデオデコーダの概略図である。ここで、ビデオデコーダ120によっ

てビットストリーム122が受け取られる。最初の2ステージ、つまり、可変長デコーダ（VLD）ステージ124及び反量子化（DQ）ステージ126は圧縮されたビットストリームをDCT領域表現に復号化する。DCT領域表現は、動き補償（MC）ステージ134で使用するために、フレームバッファとも呼ばれるメモリ（MEM）130に保持される。MC128及びMEM134を含んだ動き補償フィードバックループの後に、ランレングスデコーダ（RLD）ステージ132及び逆DCT（IDCT）ステージ134が実行される。従って、復号化されたブロックの内部表現は圧縮領域のままである。符号化されたブロック内に非零DCT係数はほんの小数しかないので、この特徴を、フレーム内の各ブロックの非零DCT係数しか保持しないMEM130のデータ構造を開発することによって、利用することができる。以下により詳細に明らかにしているように、ハイブリッドデータ構造により可能になるメモリ圧縮は、ビデオ画質の損失なしにメモリ使用を50%減らすことができる。人間の視覚系は、高位のDCT係数よりも低位DCT係数に対して敏感だから、以下に説明するように、高位DCTをフィルタ処理して取り除くと共にメモリ使用対変動電力又はピークの信号対雑音比の要件をトレードオフするしきい値化スキームを開発した。

【0025】そこで、高速でしかもメモリ効率のいい復号化ができるように最適化される完全圧縮領域ビデオ復号化について説明する。1実施例で、本書で言及しているテストのために、パブリックドメインH.263に準拠しているデコーダであるTELENORのビデオデコーダを使用した。なお、以下に説明する実施例の中にはH.263ビットストリームと呼んでいるものがあるが、実施例はH.263ビットストリームに対する操作だけに限らない。すなわち、Motion Picture Expert Group (MPEG) 1/2/4、H.261など、ビデオデータを有するどんなDCTベースの圧縮ビットストリームでも採用することができる。圧縮領域での効率的な処理を可能にする離散コサイン変換（DCT）領域表現のための高速逆動き補償アルゴリズムは数多い。なお、符号化されたブロック内に非零DCT係数を保持するメモリ圧縮法は、圧縮領域での処理だから、メモリ所要量を低減することができる。さらに、スピード及びメモリの最適化における様々な性能のトレードオフを実証するために、本書で説明している逆動き補償技術及びメモリ圧縮を用いた圧縮領域処理を採用するビデオデコーダの性能を3つの次元で、つまり、計算量、メモリ効率、PSNRの観点から評価する。

#### 【0026】

図3は、空間領域で実行される逆動き補償を説明している概略図である。ここでは、基準フレームの中の動き補償がなされたブロックに基づいて現ブロックの予測が行なわれる。現フレーム144の現在の8x8の空間ブロック $f_k$  142が、基準フレーム146の中の4つの基準ブロック $f'_1$ ,  $f'_2$ ,  $f'_3$  及び $f'_4$  144-1から144-4から導出される。基準ブロックは、 $f_k$ の変位を動きベクトル $(\Delta x, \Delta y)$ によって算出し、基準フレームの中で動きベクトルが交差するブロックを選択により選択される。 $(\Delta x > 0, \Delta y > 0)$ の場合、 $f_k$ は右下に転置される。 $f_k$ の $f'_1$ とのオーバラップから、オーバーラップパラメータ $(w, h)$ 並びに隣接ブロックとのパラメータ $(8-w, h)$ ,  $(w, 8-h)$ 及び $(8-w, 8-h)$ を判定することができる。

【数1】

【0027】

$$f_k = \sum_{i=1}^4 c_{i1} f'_i c_{i2} \quad (2)$$

各ブロックを8x8の行列として表現することができるから、行列の再構築を、窓かけ及びシフトされた行列 $f'_1, \dots, f'_4$ の総和として記述することができる。方程式(2)で、行列 $c_{ij}$ ,  $i = 1, \dots, 4$ ,  $j = 1, 2$ は、 $f'_i$ に対して窓かけ及びシフト操作を実行する。行列 $c_{ij}$ は、1と0(ゼロ)からなる8x8の疎行列である。また、 $c_{ij}$ はオーバーラップパラメータ $(w, h)$ の関数で、次のように定義される:

【数2】

【0028】

$$c_{11} = c_{21} = U_h = \begin{pmatrix} 0 & I_h \\ 0 & 0 \end{pmatrix}, \quad (3)$$

$$c_{12} = c_{22} = L_w = \begin{pmatrix} 0 & 0 \\ I_w & 0 \end{pmatrix}, \quad (4)$$

ここで、 $I_h$ 及び $I_w$ は次元 $h \times h$ 及び $w \times w$ それぞれの恒等行列である。

同様に、

【数3】

$$c_{31} = c_{41} = L_{8-h}, \quad (5)$$

$$c_{22} = c_{42} = L_{8-w}. \quad (6)$$

【0029】

DCT領域における逆動き補償により、動き補償がなされたインターワード化されたブロックからインストラコード化されたブロックが再構築される。このコンセプトは空間領域に類似している。但し、例外は、全ての係数がDCT領域に保たれる、つまり、 $f'_1, \dots, f'_4$ のDCT、つまり、 $F'_1, \dots, F'_4$ から、 $f_k$ のDCT、つまり、 $F_k$ が直接再構築される点である。

$S$ は、2次元DCTの8x8の基底ベクトルを含む行列として定義される。DCT変換 $S^T S = I$ の単位的性質を用いて、方程式(2)が、

【数4】

$$f_k = \sum_{i=1}^4 c_{ii} S^T S f'_i S^T S c_{ii}. \quad (7)$$

と等価であることを実証することができる。

方程式(7)の両辺に  $S$  を前に乗じて (premultiply)、 $S^*$  を後に乗じる (postmultiply) と、

【数5】

$$F_k = \sum_{i=1}^4 C_{il} F'_i C_{i2}, \quad (8)$$

になる。

ここで、 $C_{ij}$  は、 $c_{ij}$  の DCT である。方程式(8)は、前後に乗じられた項  $F'_1, \dots, F'_4$  の総和として、 $F_k$  を算出する。行列  $C_{ij}$  は、変換列、つまり、逆 DCT、窓掛け、シフト、順方向 DCT を含む单一の複合行列である。従って、方程式(8)は、行列乗算だけを用いて、 $F'_1, \dots, F'_4$  から  $F_k$  を直接算出する方法を記述している。これらの行列乗算は、空間領域及び周波数領域間で明白に変換しなくとも、DCT 領域で行なうことができる。しかしながら、説明した行列乗算は容認し難いほど遅い。その結果、毎秒約 5 フレームしか表示できないので、表示画質が劣る。行列乗算は容認しがたい遅延を起こすボトルネックになるので、以下に説明する DCT 領域逆動き補償アルゴリズムは、こうした行列乗算の計算量の低減を狙っている。

【0030】低ビットレートビデオ、つまり、毎秒約 6.4 キロビット未満のビットレートを有するビデオデータは、ビデオ会議のアプリケーションに使用されると共に、セルラー電話、パーソナルディジタルアシスタント (PDA) や、その他のハンドヘルド機器や電池で動く機器のワイヤレスビデオといったアプリケーション向けである。H.263 規格は、低ビットレートのビデオ復号化用のビットストリームシンタックス及びアルゴリズムを指定している模式的規格である。アルゴリズムは、変換符号化、動き推定/補償、係数量子化、ランレンジス符号化を含む。ベースライン指定とは別に、この規格のバージョン 2 は、符号化性能を向上させると共にエラー差回復力を提供する 16 の交渉可能なオプションもサポートしている。

【0031】低ビットレートで符号化されたビデオは、目に見える歪みが発生する可能性がある。特に、アクションの多い分類になっているビデオ、つまり、活動的な動きのブロックはそうである。先に触れたように、本書で説明している実施例では、H.263 規格のことを指しているが、適していればどんなビデオコーデック規格でも実施例と共に使用することができる。参考までに、H.263 規格の機能特徴のいくつかを以下に説明するが、これにより本発明を H.263 規格と共に使用することに限定しようとしているわけではない。H.263 規格の一つの特徴は、この規格の中に画像群 (GOP) 及び高位レイヤーが存在していない点である。ベースライン符号化された列が、単一イントラフレーム (I フレーム) とそれに続く長いインターフレーム (P フレーム) 列とだけからなる場合、時間的冗長が連続フレーム間で取り除かれるので、長い P フレーム列がより高い圧縮比を実現する。しかしながら、動き推定/動き補償 (ME/MC) は時間依存

性を生じさせて、損失性符号化プロセス時に発生した誤差が復号化プロセス時に集積する。I フレームが足りないと、デコーダはこの誤差集積を崩すことができない。H.263 規格は強制更新メカニズムを有するので、符号化プロセス時に少なくとも 132 回に一回エンコーダがマクロブロックをイントラブロックとして符号化しなければならない。図 4 は、強制更新メカニズムの効果を説明している図である。図 4 に示すように、ビデオの PSNR は無作為に変動するが、列の後半にあるフレームではどんな方向にもドリフトしない。

【0032】図 5 は、H.263 規格で半画素の値の判定を説明している概略図である。よく知られているように、H.263 規格は動き補償に半画素補間を採用している。この規格では、半画素補間が 0.5 分解能 (つまり、<7.5, 4.5>) を有する動きベクトルによって示される。エンコーダは、水平方向だけ、垂直方向だけ、或いは水平垂直両方向で、補間を指定することができる。図 5 に示されているように、半画素値は、半画素の位置を取り巻く整数画素位置の双線形補間によって見出される。画素位置 A 150-1、画素位置 B 150-2、画素位置 C 150-3、画素位置 D 150-4 は、整数画素位置を表わしているのに対し、画素位置 e 152-1、画素位置 f 152-2、画素位置 g 152-3 は、半画素位置を表わしている。水平方向の補間を  $e = (A+B+1) >;1$  と表わし、垂直方向の補間を  $f = (A+C+1) >;1$  と表わすことができる。水平垂直両方向の補間を  $g = (A+B+C+2) >;2$  と表わすことができる。

【0033】図 6A 及び 6B はそれぞれ、ベースライン空間ビデオデコーダ及び圧縮領域ビデオデコーダの概略図である。図 6B のブロック図は、図 6A の空間領域ビデオデコーダの機能ブロックを部分的に並べ替えたものである。特に、RLD 132 と IDCT 134 が MC 28 フィードバ

ックループの後に移動している。この配列により、圧縮領域でビデオの内部表現を保つことができる。図6Bの配列では、圧縮領域後処理モジュールをMC128フィードバックループのすぐ後に挿入可能である。なお、複合化(compositing)、スケーリング、非ブロック化など、特定のビデオ操作は、空間領域での操作と比べ、圧縮領域のほうが高速である。しかしながら、ビデオコーデックの観点から言えば、空間的エンコーディングは圧縮領域

非線形点に、(i)、(ii)、(iii)、(iv)、(v)とラベルを付けた。図6Aの空間的デコーダで、IDCT ブロック 134 は、入ってくる  $8 \times 8$  ブロックを周波数領域から空間領域に変換する。空間領域値は、色チャネル (Y, Cr, Cb) の画素値か予測誤差値かのどちらかを表わしている。図6A の点 (i) で、空間値は  $(-255 \leq x \leq 256)$  の範囲にクリッピングされる。なお、図6B の DCT 係数のこのステージには同等のクリッピング操作はない。第2の相違点は、動き補償時に発生する。図6A の MC ブロック 128 は、現在の動きベクトルが参照した MEM 130 からの画素値をリターンする。図6A の点 (ii) で、もし指定されれば、半画素 (HP) 補間 160 が近傍の画素値の平均をとり、その結果を最も近い正の整数に丸める。図6B の点 (iv) で、半画素 (HP) 補間 160 が、直接、DCT 係数に演算を行なって、その結果を最も近い正又は負の整数に丸める。予測誤差を予測値に加算した後、もう一つの相違点が発生する。図6A の点 (iii) で、和は、ブロック 162b で  $(0 \leq x \leq 255)$  の範囲にクリッピングされた画素値を表わす。なお、図6B で、同じような画素値のクリッピングは、動き補償フィードバックループから復号化パイプラインの最終ステージにブロック 162 (点 v) に移動している。

【0035】当業者ならば、MEM130は、動き補償の前のフレームを保持するフレームバッファであることが分かる。空間領域デコーダでは、フレームバッファが、(Y, Cr, Cb) 値を保持するために、入ってくるフレームサイズに十分対応できるメモリを割り当てる。例えば、4:2:0でサンプリングされたCIFビデオには約200キロバイトのメモリがなければならない。MEM130はビデオデコーダで唯一の最大メモリ使用源だから、ここで定義しているハイブリッドデータ構造及び逆動き補償により、圧縮領域復号化パイプラインのメモリ使用の軽減が可能になる。1実施例では、復号化されたビデオで有意な画質の損失なく、2倍から3倍のメモリ圧縮を達成している。

【0036】図7は、本発明の1実施例による、ビデオ符号化及び復号化プロセス時のブロック変換を説明しているブロック図である。点線170より上の変換のシーケンスは、動き補償/動き推定後に、1フレームの中のブロック又はPフレームの中のブロックに対してビデオエンコーダが用いる空間圧縮法を説明している。画素ブロック172は完全  $8 \times 8$  行列である。この時点で、空間領域での圧縮又は打ち切りはどんなものでも、再構築

RL = binary rrrr111111111111'  
最下位の12ビット (111111111111') は、ブロック1

デコーダに完全にマッチしない。図6Bに表示されているように、圧縮領域ビデオデコーダは、復号化パイプライン沿いのいくつかの点で図6Aの空間領域ビデオデコーダとは異なる。単なるブロックの並べ替えだけというのではなく、相違点は、クリッピングや丸めなど非線形操作を表わしている。これらの非線形性を有する点が、2つの領域間でPSNR測定値が異なるビデオを生成する。

#### 【0034】

【0035】当業者ならば、MEM130は、動き補償の前のフレームを保持するフレームバッファであることが分かる。空間領域デコーダでは、フレームバッファが、(Y, Cr, Cb) 値を保持するために、入ってくるフレームサイズに十分対応できるメモリを割り当てる。例えば、4:2:0でサンプリングされたCIFビデオには約200キロバイトのメモリがなければならない。MEM130はビデオデコーダで唯一の最大メモリ使用源だから、ここで定義しているハイブリッドデータ構造及び逆動き補償により、圧縮領域復号化パイプラインのメモリ使用の軽減が可能になる。1実施例では、復号化されたビデオで有意な画質の損失なく、2倍から3倍のメモリ圧縮を達成している。

されたブロックの目に見える画質に直接影響する。しかしながら、DCT変換後、変換された行列174はコンパクトで、低周波数で項が大きくなっている。量子化のステップが、ブロック176の中の高周波数の小さめの項を零にすることにより、ブロックをさらにコンパクトにする。ブロック176で強調されているジグザグ走査が、低周波数から高周波数にDCT係数に順番を付ける。ランレングス符号化は、2値をもつ要素(element)、例えば、ラン及びレベルのコンパクトなリストの中の、零係数を無視し、非零DCT係数だけをランレングス表現178で表わす。従って、非零DCT係数のランレングス表現を保持及びアクセスする効率的なデータ構造及び方法を開発することにより、DCT領域でメモリ圧縮を達成することができる。

【0037】1実施例において、半圧縮(SC) 表現が、一つのそうしたメモリ効率のいいランレングス表現である。非零DCT係数のランレングス表現は、図7のランレングス表現178及び180に類似している。しかしながら、2つの変形がある。各2値をもつ要素(ラン、レベル)をその形の複合16ビット値によって記述する。

#### 【0038】

(9)

84から反量子化されたDCT係数の値を定義している。

ブロック184は、量子化されたブロック182から導出されたものである。なお、ブロック184は、DCT領域表現の一例である。当業者ならば、DCT係数の値は2048から2047の範囲であることが明らかである。図7のブロック186は、ブロック184にIDCT操作を行なった後のブロック172の再構築ブロックである。最上位の4ビット(rrrr')はランの値を定義している。ランは、8x8ブロック内のジグザグ走査に基づく、終わりの非零DCT係数の位置に対する非零DCT係数の相対位置を表わしている。非零係数のランが15を超える可能性があるので、ランをより小さな単位に分かるためにエスケープシーケンスが定義される。15の零係数の後に零振幅(zero amplitude)の係数が続くランを表わすために、エスケープシーケンスRL='F0'が定義されている。

【0039】メモリ所要量を減らすために、SC表現を保持及びアクセスするためのデータ構造を開発しなければならない。次のデータ構造、つまり、アレイ、連結リスト、ベクトル、ハイブリッドを考察した。これらの構造を開発する際、メモリ圧縮の必要性と、計算量を低く維持する必要性とのバランスを考慮に入れた。以下に、表1を参照してさらに説明する。SC表現は狙ったメモリ圧縮を実現するが、特定のデータ構造によっては3つの分野でデコーダの計算量が大きく増大する。第1に、2バイト表現を採用することにより、(ラン、レベル)の値を直ちに使用することができなくなる。これらの値にアクセス及び変更を加えるには毎回、ビットをパック及びアンパックするための関数が必要である。第2に、コンパクトランレンジス表現により動き補償が複雑になる。第3に、予測に予測誤差を加算するには分類及び併合(sort and merge)操作が必要である。

【0040】図8は、ランレンジス表現の各8x8ブロックの開始位置を見出すために、別のインデックスを使用することを説明している概略図である。フレームの中の全ての8x8ブロック192-1から192-4のランレンジス表現を保持するためにベクトルとも呼ばれる

単一リスト190を用いる場合、動き補償時に或る特定のDCTブロックにアクセスするにはその開始位置を調べるために別のインデックスが必要になる。それは、動き補償を複雑にしてしまう。

【0041】図9A及び9Bは、アレイベースのデータ構造及びリストデータ構造それぞれに関して、予測に予測誤差を加算するのに必要な分類及び併合操作を説明している。図9Aで、アレイベースのデータ構造は、対応するアレイインデックスにおける値の加算しか必要としない。しかしながら、アレイベースのデータ構造にはメモリ圧縮効果がない。図9Bで、リスト(もしくは、ベクトル)データ構造にはさらに分類及び併合操作が必要である。すなわち、併合のアルゴリズムには挿入及び削除の機能がなければならない。それは、ベクトルなどデータ構造にとって計算量の観点から非常に高価になる。より具体的に言えば、インデックスが等しければ、DCT係数を加算又は除算することができる。例えば、(0,20)+(0,620)=(0,640)。間違ったインデックスが予測で先行している場合には、DCT係数が挿入される。例えば、(0,-3)を挿入。DCT値の加算により0になる場合には、DCT係数は削除される。例えば、(1,13)+(4,-13)=(1,0)。

【0042】表1は、いろいろなデータ構造のメモリ圧縮比及び計算費用を比較したものである。アレイベースのデータ構造は、予測の更新に必要な64の加算以外に追加の計算費用は発生しないが、DCT係数のアレイは、各DCT係数が保持のために1バイトではなく2バイトを必要とするので、画素のアレイと比べメモリ圧縮を実現することはできない。連結リスト又は半圧縮(SC)表現のベクトルは、画素のアレイと比べ、上限で2.5倍のメモリ圧縮が可能である。しかしながら、ベクトルの挿入/削除費用は高価だから、いずれの解法とも最適とはいえない。特に、ベクトルの真ん中の挿入及び削除は高価である。また、リストの要素毎に内部ポインタが作成されるので連結リストのメモリオーバーヘッドは高価である。

【表1】

| データ構造         | メモリサイズ<br>(キロバイト) | 挿入/削除<br>費用 | メモリ<br>オーバーヘッ<br>ド | 圧縮比              |
|---------------|-------------------|-------------|--------------------|------------------|
| 画素アレイ         | 152               | なし          | なし                 | なし               |
| DCTアレイ        | 304               | なし          | なし                 | なし               |
| SCベクトル        | 60                | 高価          | 最低                 | 2.5:1            |
| SCの連結リスト      | 60+オーバー<br>ヘッド    | 中程度         | 高価                 | 2.5:1(オーバーヘッドなし) |
| SCのハイブリ<br>ッド | 70                | 中程度         | 最低                 | 2.2:1            |

【0043】SC表現のハイブリッドデータ構造により、表1で競合している利害関係を最適なバランスをすることができる。図9Aのアレイ構造の低計算費用及び図9Bのベクトル構造の高圧縮比をうまく利用するために、ハイブリッドデータ構造が開発された。ハイブリッドデータ構造は、ブロック毎に固定数のDCT係数を保持する固定サイズアレイと、これらのブロックで固定サイズアレイ割り当てを超えたDCT係数を保持する可変サイズのオーバーフローベクトルとで構成されている。なお、固定サイズアレイは、ブロック毎に適した任意数のDCT係数

を保持するように構成することができる。ここで、DCT係数の数は64未満である。言うまでもなく、固定サイズアレイが大きくなると、それに比例してメモリ圧縮量が減る。1実施例で、固定サイズアレイは、ブロックあたり8つのDCT係数を保持するように構成されている。

【0044】図10は、本発明の1実施例による、メモリ圧縮及び計算効率性を可能にするアレイ構造及びベクトル構造を含むハイブリッドデータ構造の概略図である。DCTブロック200-1、200-2、200-nには、零DCT係数及び非零DCT係数が入っている。なお、DCTブロック200-1から200-nは、図2において先に説明したようにDCT領域表現を表わす。さらに、ブロック200-1から200-nは、ビデオデータのフレームのブロック、例えば、図7のブロック184、と関連付けられる。ブロック200-1から200-nの各ブロックの非零係数が識別され、固定サイズアレイ202データ構造の中に挿入される。固定サイズアレイ202には、固定サイズブロック204-1から204-nがある。1実施例で、各ブロック204-1から204-nは、8×8データ構造の中に8つのDCT係数を保持できる大きさになっている。なお、本発明は、8つのDCT係数を保持する構成になったブロックに限定されるものではなく、適した任意のサイズを採用することができる。先に述べたように、ブロックの容量が増大すると、それに比例してメモリ圧縮量は低下する。

【0045】引き続き、図10において、DCTブロック200-1から200-nのどれかに8個を超える非零係数が入っている場合、それぞれ固定サイズブロック204-1から204-nの容量を超える非零DCT係数はオーバーフローベクトル206の中に入れられる。オーバーフローベクトル206は、可変サイズオーバーフローベクトルとして構成されている。つまり、オーバーフローベクトルは動的である。例えば、ブロック200-1は、9つの非零DCT係数A1～A9を含んでいる。ここで、DCT係数A1～A8は固定サイズブロック204-1にコピーされるが、DCT係数A9はオーバーフローベクトル206にコピーされる。ブロック200-2は、10個の非零DCT係数B1～B10を含んでいる。ここで、DCT係数B1～B8は固定サイズブロック204-2にコピーされるが、DCT係数B9及びB10は、フレームのブロック毎に、オーバーフローベクトル206、その他に、コピーされる。インデックス表208には、オーバーフローベクトル206のエントリに関して、対応する固定サイズブロック204-1から204-nを識別するエントリが入っている。各エントリは1バイトだから、インデックス表のサイズは無視することができる。従って、DCTブロック200-1から200-nに対応するデータのフレームでは、イメージ210を生み出すために、固定サイズアレイ202及びオーバーフローベクトル206からのデータが組み合わされる。相当なメモリの節

約ができる。すなわち、DCTブロック200-1から200-nは、ほとんどの場合、64個の零及び非零係数から、固定サイズブロック204-1から204-nに保持された8個以下の非零係数まで減少する。言うまでもなく、多少の非零係数が提供される可能性はあり、非零係数が8を超えるとオーバーフローベクトル206に保持される。

【0046】図11A～11Cは、本発明の1実施例による、ハイブリッドデータ構造の固定サイズアレイの固定サイズブロックの容量及びオーバーフローベクトルを判定する際に評価される因子を説明しているグラフである。図11Aで、2つの典型的なCIFシーケンスの輝度ブロックあたりの非零DCT係数の平均数が、線220及び222で描かれている。ブロックあたりの非零係数の数は3から7の範囲である。すなわち、64個の係数のうち、平均して2から7個の係数だけが非零係数である。図11Bは、固定サイズアレイが増加すると、オーバーフローベクトルのサイズが減少するので、ベクトルの挿入及び削除費用を最小限にすることを、図11Aの情報を指針として用いて、説明している。ここで、線220-1は図11Aの線220のCIFシーケンスに対応しているのに対し、線222-1は図11Aの線222のCIFシーケンスに対応している。当業者ならば、固定サイズアレイは容量が増えるにつれて、メモリ圧縮は低下することが分かる。さらに、図11Cは、アレイの負荷因子(load factor)も減少して、アレイはほとんど空のままであることを示している。1実施例では、ブロックあたり8つのDCT係数を保持する固定サイズアレイを選んだ。ここでも、線220-2は図11Aの線220のCIFシーケンスに対応し、線222-2は図11Aの線222のCIFシーケンスに対応している。この選択が、オーバーフローベクトルのサイズに最小にしてDCT係数を約200に抑え、負荷因子を約9%と約15%の間に維持する。当業者ならば、固定サイズアレイはブロックあたり8係数に限定されるものではなく、ブロックあたりの係数の数は適した任意の数を選んでいいことが明らかである。さらに、固定サイズアレイの個々のブロックは適した任意の構成にすることができる。例えば、8つの係数を保持する能力を有するブロックを、例えば、8×1のブロック、4×2のブロックとして配列することができる一方、9つの係数を保持する能力を有するブロックを、例えば、9×1のブロック、3×3のブロックとして配列することができる。

【0047】図12は、本発明の1実施例による、ビットストリームを復号化するのに要するメモリ所要量を減らすための方法のオペレーションのフローチャートである。この方法は、ビデオビットストリームを受け取るオペレーション230から始まる。1実施例で、ビットストリームは低レートビットストリームである。例えば、ビデオストリームを、H.263、Motion Pictures Expert

Group (MPEG-1/2/4)、H.261、Joint Photographic Expert Group (JPEG) など、ビデオ符号化規格と関連付けることができる。この方法は次に、オペレーション232に進み、そこでビットストリームのフレームが、そのフレームと関連付けられるデータの各ブロックの離散コサイン変換 (DCT) 領域表現に復号化される。ここで、ビデオは、図2、6B、15に示したデコーダなど、デコーダの最初の2ステージで処理される。すなわち、ビデオデータは、圧縮されたビットストリームをDCT領域表現に復号化するために、可変長デコーダステージ及び反量子化ステージで処理される。なお、DCT領域表現は圧縮状態フォーマットになっている。フレームは一度に1ブロックずつ復号化される。この方法は次に、オペレーション234に進み、そこでDCT領域表現の非零係数が識別される。ここで、データブロックのDCT領域表現と関連付けられる64のDCT係数のうち、64中の比較的少数のDCT係数が概して非零係数である。

【0048】引き続き、図12において、この方法は次に、ハイブリッドデータ構造をアセンブルするオペレーション236に進む。ハイブリッドデータ構造は、固定サイズアレイと可変サイズオーバーフローべクトルとを含んでいる。模式的な一つのハイブリッドデータ構造は、図10に示した複数の固定サイズブロック及び可変サイズオーバーフローべクトルを含む固定サイズアレイである。この方法は次に、オペレーション238に進み、そこでDCT領域表現の非零係数がハイブリッドデータ構造の中に挿入される。図10において説明したように、ビデオデータブロックのDCT領域表現の非零係数は、固定サイズアレイ内の固定サイズブロックと関連付けられる。非零係数の数が、ビデオデータブロックと関連付けられる固定サイズブロックの容量を超えると、残

りの非零係数は可変サイズオーバーフローべクトルに保持される。1実施例で、インデックス表は、オーバーフローべクトル内のデータを固定サイズアレイ内のしかるべき固定サイズブロックに写像する。従って、ハイブリッドデータ構造と非零係数の保持により、メモリ所要量が低減される。より具体的に言えば、ビデオ画質の損失なしにメモリ所要量を50%低減することができる。

【0049】なお、データフレームと関連付けられる各DCT領域表現の非零係数はハイブリッドデータ構造に保持される。保持されたフレームのデータは次に、表示するために組み合わされ、解凍される。1実施例では、その次のフレームがハイブリッドデータ構造に保持されるべくDCT領域表現に復号化されてしまえば、ハイブリッドデータ構造内で前のフレームと関連付けられたデータがフラッシュされる。以下にさらに説明するように、逆動き補償は圧縮領域の保持されたデータに対して行なわれる。逆動き補償は、完全画素逆動き補償には整数近似を用い、半画素逆動き補償には因数分解を用いる。

【0050】空間H.263ビデオデコーダの主な構成要素には、ランレンジング復号化、逆DCT、及び逆動き補償がある。タイミングプロファイルを用いて、1.1 GHzペントリーム (Pentium; 登録商標) 4プロセッサで走行しているTELENORのH.263ビデオデコーダの性能をベースラインデータで測定する。ベースラインデータを復号化し、システム呼び出しを無視して、プロファイルは、144のフレームを復号化するのに要する総体的な時間を測定すると共に、各構成要素のタイミング特性を詳細に記述する。表2は、空間的H.263ビデオデコーダのタイミングプロファイルで、特に、選ばれた機能のタイミング結果を示すものである。

【表2】

| 機能         | 機能時間 (ms) | ヒット数  |
|------------|-----------|-------|
| 画像表示       | 772       | 144   |
| 逆動き補償      | 243       | 56336 |
| ランレンジング復号化 | 57        | 39830 |
| 逆DCT       | 3         | 42253 |

【0051】表3は、最適化されていない圧縮領域H.263ビデオデコーダのタイミングプロファイルである。一つの模式的デコーダのバイオペライン構成は図2に示した

デコーダである。

【表3】

| 機能         | 機能時間 (ms) | ヒット数   |
|------------|-----------|--------|
| 逆動き補償      | 9194      | 56336  |
| 画像表示       | 1547      | 144    |
| ランレンジング復号化 | 32        | 39830  |
| 逆DCT       | 652       | 340197 |

【0052】表2に示すように、空間領域ビデオデコーダは、144のフレームを復号化するのに約1.2秒か

かる。この時間のほとんどが、例えば、WINDOWSなど、適したオペレーティングシステムで表示するために、各

フレームのカラー値をYUVからRGBに変換する画像表示機能にとられている。ランレンジス復号化、逆DCT、逆動き補償といった機能が、ビデオを復号化するのに要する時間全体のうちの約25%をとっている。逆動き補償は空間領域で特に高速である。ここで、完全画素の動き補償は単にピントをメモリもしくはフレームバッファ内の位置に設定してデータブロックをコピーするだけなの

圧縮領域デコーダにとって主なボトルネックは逆動き補償機能である。先に方程式(8)で説明したように、圧縮領域での完全画素の逆動き補償には4つの( $TM_i$ )項がなければならない。ここで、 $TM_i$ は、 $8 \times 8$ の行列ブロック  $F'_i$  に変換行列  $C_{ij}$  を前後乗じることと定義される。

## 【数6】

$$F_i = TM_1 + TM_2 + TM_3 + TM_4 \quad (10)$$

$$\text{ここで、 } TM_i = C_{ii} F'_i C_{i2} \quad (11)$$

表4は、完全画素変換行列を定義している。ここで、 $C_{ij}$  は  $8 \times 8$  の DCT 行列を表わし、 $U_k$  及び  $L_k$  は、先に方程式3~6に定義されている。

## 【表4】

| 完全画素変換行列          | 行列定義          |
|-------------------|---------------|
| $C_{11} = C_{21}$ | $SU_h S'$     |
| $C_{31} = C_{41}$ | $SL_{w-h} S'$ |
| $C_{12} = C_{32}$ | $SL_w S'$     |
| $C_{22} = C_{42}$ | $SU_{w-h} S'$ |

【0055】 $8 \times 8$ 行列の乗算には各々、512の掛け算と448の加算が必要である。知られているように、行列乗算は計算的に高価である。表5は、マクロブロックの行列乗算、行列因数分解、共用ブロックなど最適化

に対し、半画素の動き補償はメモリにピントを設定し且つシフトオペレータを用いて値を補間する。対照して、表3は、最適化されていない圧縮領域ビデオデコーダのタイミング結果のいくつかを示したものである。最適化されていない圧縮領域デコーダは、同じ144のフレームを復号化するのに約13.67秒かかっている。

## 【0053】

圧縮領域デコーダにとって主なボトルネックは逆動き補償機能である。先に方

式(8)で説明したように、圧縮領域での完全画素の逆動き補償には4つの( $TM_i$ )

項がなければならない。ここで、 $TM_i$  は、 $8 \times 8$ の行列ブロック  $F'_i$  に変換行列

$C_{ij}$  を前後乗じることと定義される。

## 【0054】

スキームと、図2、6B、15に示したパイプラインなど圧縮領域ビデオパイプラインのハイブリッドスキームとの比較を示している。各データフレームが352本のラインを含み、ラインあたり288個の画素を有する共通中間フォーマットといったビデオフォーマットをサポートしているハンドヘルド機器で容認できる画質を提供するために、圧縮領域ビデオ復号化パイプラインは毎秒約15~25フレーム(fps)というレートで復号化すべきである。

## 【表5】

| 最適化     | 復号化時間(s) | フレーム数 | FPS   | 備考                            |
|---------|----------|-------|-------|-------------------------------|
| 空間領域    | 9.79     | 144   | 14.71 | オリジナルTELENOR H.263<br>ビデオデコーダ |
| 行列 x 行列 | 14.17    | 144   | 10.16 | TMの完全 $8 \times 8$ 行列乗算       |
| 近似      | 9.82     | 144   | 14.66 | 時間は良好だがPSNRは劣る                |
| 因数分解    | 12.95    | 144   | 11.12 | PSNRは良好だが時間は劣る                |
| 共用ブロック  | 14.85    | 144   | 9.70  | 改善は見られない                      |
| ハイブリッド  | 9.83     | 144   | 14.65 | 時間、PSNR、共に良好                  |

【0056】圧縮領域ビデオ復号化パイプラインのエンハンスメントの一つは、ブロックアライメントにより、方程式(10)の $TM_i$ 演算数を減らすことである。ブロックアライメントを、例えば、次のように行なう：1列の144フレームを復号化して、ブロックアライメント率を全ブロックの36.7%で測定する。図13は、行列乗算を減らすブロックアライメントの3つの例を説明している概略図である。ブロックアライメント240(( $w=8, h=4$ ))、ブロックアライメント242(( $w=4, h=8$ ))、及びブロックアライメント244(( $w=8, h=8$ ))の各ケースが描かれている。これらの例24

0、242、244では各々、対応するブロックとのオーバーラップがゼロになると、 $TM_i$ 演算はなくなる。しかし、DCT領域(圧縮領域)で、ブロックアライメントは、半画素補間を指定している場合には、節約にはならない。圧縮領域における半画素動き補償の方程式は以下の通り。 $(w=8, h=8)$ の例で、半画素補間には、方程式12及び13に示されているように、4つの $TM_i$ 演算が依然として必要である。表6は、半画素変換行列  $C_{hp,ij}$  を定義するにあたり、参考までに提供しているものである。

## 【数7】

$$F_{hpk} = TM_{hp1} + TM_{hp2} + TM_{hp3} + TM_{hp4} \quad (12)$$

$$TM_{hp_i} = C_{hp1} F_i C_{hp2} \quad (13)$$

【表6】

| 半画素変換行列               | 水平方向補間                      | 垂直方向補間                      | 水平垂直方向補間                    |
|-----------------------|-----------------------------|-----------------------------|-----------------------------|
| $C_{hp11} = C_{hp21}$ | $SU_h S'$                   | $S(U_h + U_{h+1}) S'$       | $S(U_h + U_{h+1}) S'$       |
| $C_{hp31} = C_{hp41}$ | $SL_{g-h} S'$               | $S(L_{g-h} + L_{g-h+1}) S'$ | $S(L_{g-h} + L_{g-h+1}) S'$ |
| $C_{hp12} = C_{hp32}$ | $S(L_w + L_{w+1}) S'$       | $SL_w S'$                   | $S(L_w + L_{w+1}) S'$       |
| $C_{hp22} = C_{hp42}$ | $S(U_{g-w} + U_{g-w+1}) S'$ | $SU_{g-w} S'$               | $S(U_{g-w} + U_{g-w+1}) S'$ |

【0057】完璧にアライメントされたブロックでも、半画素補間により近傍の画素とのオーバーラップが生じる。図14は、完璧にアライメントされたDCTブロックの半画素補間の概略図である。半画素補間により、1画素幅及び1画素高だけ近傍ブロックへのオーバーラップが生じる。

【0058】図2のデコーダの機能ブロックの並べ替えにより圧縮領域復号化パイプラインの処理スピードを上げることができる。表2及び3で、逆DCTブロックの処理時間は、圧縮領域(632 ms)と比べ、空間領域のほうがはるかに短い(3 ms)。空間領域で、逆DCTは、フィードバックループの前にイントラブロック及び誤差係数に対して用いられる。具体的に言えば、イントラブロック及び誤差係数は、ビデオの全ブロックの15%未満にあたる。その他の85%では、単に逆DCT機能は省かれれる。圧縮領域では、逆DCTが、パイプラインの最終ステージで、ビデオの各フレームのブロック100%に用いられる。

【0059】図15は、本発明の1実施例による、ビデオデータの処理を向上させる圧縮領域ビデオデコーダの機能ブロックの並べ替えを説明している概略図である。

ここで、機能ブロックは並べ替えられ、圧縮領域パイプラインは2ヶ所で分けられる。最初のスプリットはVLD 124及びDQ 126の後に点(i) 252で起きる。上流のブランチで、パイプラインはメモリ圧縮128の内部DCT領域表現を保っている。下流のブランチで、パイプラインは、誤差係数を空間領域に復号化するために、RLD及びIDCTを前方に移動する。2番目のスプリットは、動き補償(MC)時に点(ii) 254で発生する。動き補償時に、方程式(7)によると、空間領域出力が生成される可能性がある。ディスプレイ136に表示するために点(iii) 256で現ブロックを再構築するべく、出力を誤差係数に直し加算することができる。内部DCT表現を維持するためにDCTブロック250がフィードバックループに挿入される。点(i) 252でのRLD132とIDCT134との組合せ及び点(ii) 254でのDCTは、図2のパイプラインの最終ステージでのIDCTブロックと比べ、必要な計算が少ない。表7は、本書で説明している他の最適化スキームに加えて組合せ可能な図15に示した並べ替えにより20%のスピードアップを図れることを実証している。

【表7】

| 機能             | ブロックの% | 備考                                                       |
|----------------|--------|----------------------------------------------------------|
| 図15の点(i)でのIDCT | 15%    | イントラブロック及び誤差係数は全ブロックの小さな部分を表わす                           |
| 図15の点(ii)でのDCT | 63%    | アライメントされていないブロックはDCTが必要けれども、アライメントされたブロックはDCTせずに直接コピーされる |
| 図2のIDCT        | 100%   | DCT領域で全ブロックに適用                                           |

【0060】1実施例で、方程式(11、13)の基本的TM演算に必要な掛け算の数を減らすことにより逆動き補償が加速される。完全8×8行列乗算を計算する代わ

りに、方程式14に示すように、DCT行列Sが疎行列の列に因数分解される。方程式(17)の疎行列は、順序行列(A<sub>1</sub>, A<sub>2</sub>, A<sub>3</sub>, A<sub>4</sub>, A<sub>5</sub>, A<sub>6</sub>)及び対角行列(D, M)を含む。この

因数分解を方程式(15)の中に代入すると、方程式(16)の $TM_i$ の完全に因数分解された方程式を導き出すことができる。これは、方程式(11)、(13)よりも

$$S = DA_1A_2A_3MA_4A_5A_6 \quad (14)$$

$$TM_i = Sc_{ii}S'F'_{ii}Sc_{ii}S' \quad (15)$$

$$TM_i = (DA_1A_2A_3MA_4A_5A_6)c_{ii}(DA_1A_2A_3MA_4A_5A_6)'F'_{ii} \quad (16)$$

$$(DA_1A_2A_3MA_4A_5A_6)c_{ii}(DA_1A_2A_3MA_4A_5A_6)'$$

$$D = \begin{bmatrix} s_1 & & & & & \\ & s_2 & & & & \\ & & s_3 & & & \\ & & & s_4 & & \\ & & & & s_5 & \\ & 0 & & & & s_6 \end{bmatrix} \quad A_1 = \begin{bmatrix} 1 & & & & & \\ & 1 & & & & \\ & & 1 & & & \\ & & & 1 & & \\ & & & & 1 & \\ & & & & & 1 \end{bmatrix} \quad A_2 = \begin{bmatrix} 1 & & & & & \\ & 1 & & & & \\ & & 1 & & & \\ & & & 1 & & \\ & 0 & & & 1 & \\ & & & & & 1 \end{bmatrix} \quad A_3 = \begin{bmatrix} 1 & & & & & \\ & 1 & & & & \\ & & 1 & & & \\ & & & 1 & & \\ & 0 & & & 1 & \\ & & & & & 1 \end{bmatrix}$$

$$M = \begin{bmatrix} & & & & & \\ & & & & & \\ & & & & & \\ & & & & & \\ & & & & & \\ & & & & & \end{bmatrix} \quad A_4 = \begin{bmatrix} 1 & & & & & \\ & 1 & & & & \\ & & 1 & & & \\ & & & 1 & & \\ & 0 & & & 1 & \\ & & & & & 1 \end{bmatrix} \quad A_5 = \begin{bmatrix} 1 & & & & & \\ & 1 & & & & \\ & & 1 & & & \\ & & & 1 & & \\ & 0 & & & 1 & \\ & & & & & 1 \end{bmatrix} \quad A_6 = \begin{bmatrix} 1 & & & & & \\ & 1 & & & & \\ & & 1 & & & \\ & & & 1 & & \\ & 0 & & & 1 & \\ & & & & & 1 \end{bmatrix}$$

(17)

$$D = \text{diag}\{0.3536, 0.2549, 0.2706, 0.3007, 0.3536, 0.4500, 0.6533, 1.2814\} \quad (18)$$

$$A = 0.7071, B = 0.9239, C = 0.3827 \quad (19)$$

【0061】従って、行列乗算は、行列順列で置き換えられる。但し、方程式(16)に示すように、項 $TM_i$ の完全に因数分解された式は必ずしも逆動き補償をスピードアップするとは限らない。基本的に、掛け算がメモリアクセスとトレードされたので、メモリアクセスが多すぎると、実のところ復号化プロセスを遅くする。従つて、これらの競合する機能間のバランスをとるべく行列

$$J_h = c_{11}G_1^t = c_{21}G_1^t, \quad J_w = G_1c_{12} = G_1c_{32} \quad (20)$$

$$K_h = c_{31}G_1^t = c_{41}G_1^t, \quad K_w = G_1c_{22} = G_1c_{42} \quad (21)$$

半画素補間でも同様に、

$$J_h = c_{hp11}G_1^t = c_{hp21}G_1^t, \quad J_w = G_1c_{hp12} = G_1c_{hp32} \quad (22)$$

$$K_h = c_{hp31}G_1^t = c_{hp41}G_1^t, \quad K_w = G_1c_{hp22} = G_1c_{hp42} \quad (23)$$

$$F_k = S[J_hG_0^tF'_1G_0J_w + J_hG_0^tF'_2G_0K_w + K_hG_0^tF'_3G_0J_w + K_hG_0^tF'_4G_0K_w]S^t \quad (24)$$

【0062】固定行列 $J_i$ 、 $K_i$ による高速乗算を実現する。固定行列には構造の繰り返しが入っている。例えことにより、スピードをさらに向上させることができれば、行列 $J_6$ は次のように定義される。

掛け算の数が少ない。

【数8】

【数11】

$$J_6 = \begin{bmatrix} 1 & -1 & -a & 0 & b & a & c & 0 \\ 1 & 1 & -a & -1 & b & 0 & c & 0 \\ 1 & 1 & -a & -1 & -b & 0 & -c & 0 \\ 1 & -1 & -a & 0 & -b & -a & -c & 0 \\ 1 & -1 & a & 0 & c & -a & -b & 0 \\ 1 & 1 & a & 1 & c & 0 & -b & -1 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \end{bmatrix}$$

【0063】ここでは、 $a=0.7071$ 、 $b=0.9239$ 、 $c=0.3827$ とする。 $u=\{u_1, \dots, u_8\}$ 及び $v=\{v_1, \dots, v_8\}$ と仮定すると、 $u = J_6 v$ を計算するには、方程式の列を次のステップに従って計算する：

【数12】

$$y_1 = v_1 + v_2 \quad (25)$$

$$y_2 = v_1 - v_2 \quad (26)$$

$$y_3 = av_3 \quad (27)$$

$$y_4 = bv_6 \quad (28)$$

$$y_5 = y_1 - y_3 \quad (29)$$

$$y_6 = y_5 - y_4 \quad (30)$$

$$y_7 = y_3 - y_4 \quad (31)$$

$$y_8 = y_3 + y_4 \quad (32)$$

$$y_9 = (b+c)(v_5 + v_7) \quad (33)$$

$$y_{10} = cv_5 \quad (34)$$

$$y_{11} = bv_7 \quad (35)$$

$$y_{12} = y_9 - y_{10} - y_{11} \quad (36)$$

$$y_{13} = y_{10} - y_{11} \quad (37)$$

$$u_1 = y_2 - y_7 + y_{12} \quad (38)$$

$$u_2 = y_6 + y_{12} \quad (39)$$

$$u_3 = y_6 - y_{12} \quad (40)$$

$$u_4 = y_2 - y_8 - y_{12} \quad (41)$$

$$u_5 = y_2 + y_7 + y_{13} \quad (42)$$

$$u_6 = y_1 + y_3 + u_4 + y_{13} - u_8 \quad (43)$$

$$u_7 = 0 \quad (44)$$

$$u_8 = 0 \quad (45)$$

【0064】

このように、行列ベクトル乗算を方程式の列に変換した。上に示した方程式の列は、5回の乗算と21回の加算を必要とする。方程式(24)の行列乗算  $J_k G'_o F'$  では、104回の乗算及び164回の加算が必要である。従って、方程式(8)の行列乗算  $C_{11} F'$  に必要な掛け算の回数と比べ、5倍減らすことができる。その上、32ビットの浮動小数点算術を用いるこの行列演算時に精度が失われることはない。しかしながら、表5において、因数分解は、圧縮領域パイプラインのスピードを行列間に比べ9%しか向上させていない。従って、余分のメモリアクセスがフレームレートを約15fps から約25fps という目標レート以下に低下させる

ので、因数分解だけでは事足りない。  
【0065】逆動き補償の更なるスピードアップを図るために、方程式(11、13)の基本的なTM演算に必要な掛け算を削除する。完全画素及び半画素の行列、 $C_{ij}$  及び  $C_{hp,ij}$  が、 $2^{-5}$  のベキに一番近い2進数に近似される。これらの行列を2進数に近似すると、方程式(10、12)の逆動き補償を解くために、右シフトや加算

$$C_{11} = \begin{bmatrix} 0.12501651 & -0.17338332 & 0.16332089 & \dots & -0.03447659 \\ 0.17340284 & -0.24048958 & 0.22653259 & \dots & -0.04782041 \\ 0.16334190 & -0.22653624 & 0.21338904 & \dots & -0.04504584 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 0.03449197 & -0.04783635 & 0.04506013 & \dots & -0.00951207 \end{bmatrix} \quad (46)$$

行列の各要素を2のベキに一番近い値に丸めると、行列(47)が生まれる。

$$\hat{C}_{11} = \begin{bmatrix} 0.1250 & -0.1875 & 0.1875 & \dots & -0.0625 \\ 0.1875 & -0.2500 & 0.2500 & \dots & -0.0625 \\ 0.1875 & -0.2500 & 0.1875 & \dots & -0.0625 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 0.0625 & -0.0625 & 0.0625 & \dots & 0 \end{bmatrix} \quad (47)$$

【0066】DCT要素は[-2048 to 2047]の範囲内に入っているから、DCT係数を直接シフトすることではほとんど値がゼロに駆動される。中間結果の精度を維持するために、復号化パイプライン全体で各DCT係数を $2^8$ でスケーリングする。この倍率は、量子化及び反量子化のステ

など基本的な整数演算を用いることによって行列乗算を行なうことができる。例えば、 $h=1$ の場合、完全画素行列  $C_{11}$  を以下のように調べる。なお、その他の行列は同じように近似されている。

【数13】

【数14】

ップで導入されるから、余分な演算は発生しない。  
【0067】さらに、積和のルールに従って項をグループ化することにより高速行列乗算を実現する（方程式(48～50)を参照）。

【数15】

$$u_1 = 0.1250v_1 - 0.1875v_2 + 0.1875v_3 - 0.1250v_4 + 0.1250v_5 - 0.1250v_6 + 0.0625v_7 - 0.0625v_8 \quad (48)$$

$$u_1 = (v_1 >> 3) - (v_2 >> 3) - (v_2 >> 4) + (v_3 >> 3) + (v_3 >> 4) - (v_4 >> 3) + (v_5 >> 3) - (v_6 >> 3) + (v_7 >> 4) - (v_8 >> 4) \quad (49)$$

$$u_1 = (v_1 - v_2 + v_3 - v_4 + v_5 - v_6) >> 3 + (-v_2 + v_3 + v_7 - v_8) >> 4 \quad (50)$$

【0068】

$u = \{u_1, \dots, u_8\}$  及び  $v = \{v_1, \dots, v_8\}$  と仮定すると、 $u = \hat{C}_{11}v$  の計算は次のように算出することができる：

【数16】

$$u_1 = (v_1 - v_2 + v_3 - v_4 + v_5 - v_6) \gg 3 + (-v_2 + v_3 + v_7 - v_8) \gg 4 \quad (51)$$

$$u_2 = (v_3 - v_2) \gg 2 + (v_1 - v_4 + v_5 - v_6 + v_7) \gg 3 + (v_1 - v_4 + v_5 - v_8) \gg 4 \quad (52)$$

$$u_3 = (v_1 + v_3 - v_4 + v_5 - v_6) \gg 3 - (v_2 \gg 2) + (v_1 + v_3 - v_4 + v_5 + v_7 - v_8) \gg 4 \quad (53)$$

$$u_4 = (v_1 - v_2 + v_3 - v_4 + v_5 - v_6) \gg 3 + (v_3 - v_2 - v_4 + v_7 - v_8) \gg 4 \quad (54)$$

$$u_5 = (v_1 - v_2 + v_3 - v_4 + v_5 - v_6) \gg 3 + (-v_2 + v_3 + v_7 - v_8) \gg 4 \quad (55)$$

$$u_6 = (v_1 - v_2 + v_3 - v_4 + v_5) \gg 3 + (v_7 - v_6) \gg 4 \quad (56)$$

$$u_7 = (v_1 + v_3 - v_4 + v_5 - v_6 + v_7) \gg 4 + (v_2) \gg 3 \quad (57)$$

$$u_8 = (v_1 - v_2 + v_3 - v_4 + v_5) \gg 4 \quad (58)$$

【0069】

行列近似には、合わせて17回の右シフトと57回の加算が必要である。方程式(8)の行列近似 $\hat{C}_n F'$ では、136回の右シフトと456回の加算を行なわなければならない。従って、浮動小数点の精度を用いると、行列乗算と比べ計算量がかなり減る。実際、表5から、近似の技法により圧縮領域バイオラインが31%スピードアップしていることが明らかである。これは、約15fpsの目標フレームレートを達成するのに十分である。但し、サンプルビデオのPSNRは低下し、中程度の動きのエリアでドリフトが目に見える。

【0070】ビデオの動きに基づいて選択的に適用される変換行列TMのハイブリッド因数分解／整数近似は、確認できる画質を維持しながら、同時に、好ましい約1.5～2.5fpsのフレームレートを実現する。先に触れたように、整数近似技法は、デコーダの計算量を低減するだけでなく、復号化されたビデオのPSNRも低下させる。同時に、因数分解技法では、良好なPSNRは維持できるけれども、好ましいフレームレートを満たすにはデコーダの計算量は低下しない。整数近似技法の計算量に低さと因数分解技法の精度の高さとを統合することで、低レートビデオビットストリームをサポートするための圧縮領域ビデオ復号化バイオラインを得ることができる。

【0071】2つのタイプの変換行列、つまり、方程式(11)に示した完全画素動き補償 $TM_i$ と、方程式(13)に示した半画素動き補償 $TM_{hpi}$ について説明してきた。 $TM_i$ に近似行列を用いると、完全画素動き補償は、 $8 \times 8$ 浮動小数点行列を用いた場合と比べ、計算量が28%ですむ。しかしながら、半画素変換行列 $TM_{hpi}$ に近似技法を直接用いる場合、 $TM_{hpi}$ の近似行列を用いると、半画素動き補償はPSNRを低下させる(表8)と

共に復号化されたビデオに目に見える歪みを発生させることが観察された。誤差源は2つある。その一つは、半画素変換行列 $TM_{hpi}$ が近似技法により敏感に反応することである。表8で、 $TM_{hpi}$ は $TM_i$ 以外にも数多くの項からなる複合行列である。2つ目は、先に図6A及び6Bにおいて説明したように、半画素補間時の非線形処理が、近似技法によって発生した誤差と組み合わされて、中程度から高度の動き領域で目に見える誤差の累積を生じさせる。

【0072】半画素行列に因数分解技法を選択的に適用することでこうした誤差の問題を解決することができる。先に説明したように、因数分解技法は浮動小数点の精度を維持するので、上に説明した誤差を最小限にできる。例えば、因数分解技法は、 $TM_{hpi}$ を有する行列乗算を、方程式(25～45)に示したのと同じような方程式の列に還元する。これらの方程式は32ビット浮動小数点の精度を維持するので、近似誤差が生まれない。さらに、因数分解技法は動き補償時にDCTブロックを空間領域に復号化するので、図15において説明した最適化をいま説明した最適化と組み合わせることが

できる。表5はハイブリッド法で15fpsの目標フレームレートを達成できることを実証しているのに対し、表8はハイブリッド法のPSNRは容認できるPSNRを実現

することを示している。

【表8】

| ビデオ<br>(128 kbps, QCIF,<br>15 fps) | 因数TMを有する<br>圧縮領域<br>(PSNR_Y) | ハイブリッドTM<br>を有する圧縮領域<br>(PSNR_Y) | 近似TMを有する圧<br>縮領域(PSNR_Y) |
|------------------------------------|------------------------------|----------------------------------|--------------------------|
| Sample A                           | 25.53                        | 25.53                            | 22.65                    |
| Sample B                           | 22.47                        | 19.57                            | 18.75                    |
| Sample C                           | 30.79                        | 30.66                            | 29.90                    |
| Sample D                           | 33.29                        | 33.25                            | 28.93                    |
| Sample E                           | 31.27                        | 31.10                            | 28.89                    |

【0073】図16は、本発明の1実施例による、圧縮領域で逆動き補償を行なうための方法のオペレーションのフローチャート図である。この方法は、圧縮されたビットストリーム内のビデオデータフレームを受け取るオペレーション260から始まる。1実施例で、ビットストリームは低レートビットストリームである。例えば、ビットストリームは、MPEG 4、H.263、H.261など、公知のビデオ符号化規格と関連付けられていて構わない。この方法は次にオペレーション262に進み、そこでビットストリームのフレームのブロックが離散コサイン変換(DCT)領域表現に復号化される。ここで、ビデオは、図2、6B、15に示したデコーダなど、デコーダの最初の2ステージで処理される。すなわち、ビデオデータは、圧縮ビットストリームをDCT領域表現に復号化するために、可変長デコーダのステージ及び反量子化のステージで処理される。なお、DCT領域表現は圧縮状態のフォーマットになっている。この方法は次にオペレーション264に進み、そこでDCT領域表現と関連付けられるデータがハイブリッドデータ構造に保持される。適したハイブリッドデータ構造は、図10及び12において説明したハイブリッドデータ構造である。1実施例で、ハイブリッドデータ構造は、例えば、セラー電話、PDA、ウェブタブレット、ポケットパソコンなど、ビデオデータを表示するためのディスプレイ画面を有する携帯用電子機器のメモリ所要量を低減する。

【0074】引き続き、図16において、この方法はオペレーション266に進み、そこでDCT領域表現と関連付けられるデータに圧縮領域で逆動き補償が実行される。ここで、逆動き補償には、表5及び9において説明したハイブリッド因数分解／整数近似技法が選択的に適用される。この方法は次にオペレーション268に進み、そこでハイブリッド因数分解／整数近似技法が、処理中のビデオデータのブロックと関連付けられる変換行列のタイプを識別する。1実施例では、いま復号化されているビットストリームのビットセットの中の情報により変換行列のタイプが検出される。変換行列が半画素行列の場合には、この方法はオペレーション270に進

み、そこでビットストリームを復号化するために因数分解技法が用いられる。1実施例では、先に方程式25～45において説明したように、因数分解技法により行列乗算が一連の方程式に還元される。すなわち、行列乗算が行列順列で置き換えられる。決定のオペレーション268で変換行列が完全画素行列であると判定された場合には、この方法はオペレーション272に進み、そこでビットストリームを復号化するために整数近似技法が用いられる。ここでは、方程式46～58において先に説明したように、逆動き補償を解くために、基本的な整数演算を用いて行列乗算を実行することができる。従って、容認できる画質を有しながら先に説明したハイブリッドデータ構造により達成できたメモリの低減を可能にする程度のフレームレートを実現するために、ハイブリッド因数分解／整数近似技法を選択的に適用することにより、圧縮領域での処理が実行される。

【0075】図17は、本発明の1実施例による、ハイブリッド因数分解／整数近似技法の選択的適用の概略図である。ディスプレイ画面280は低ビットレートビデオによって定義された画像を表示するように構成されている。例えば、ディスプレイ画面280を、PDA、セラー電話、ポケットパソコン、ウェブタブレットなど、携帯用電子機器と関連付けることができる。ポール282はビデオで垂直方向に移動している。ブロック284は移動するオブジェクトの周囲に位置し、高度又は中程度の動き領域と考えられ、フレームからフレームで変わる。ブロック286はバックグラウンドを表わし、フレームからフレームで実質的に同じままである。従って、圧縮ビットストリームの復号化時に、データフレームのブロック284は、フレームからフレームで、高度な動き領域と関連付けられるのに対し、ブロック286はフレームからフレームで実質的に同じままである。高度動き領域と関連付けられるブロック284は、複合化の技法、つまり、因数分解時には、より高度な精度を必要とするが、ブロック286は実質的に変わらないので計算量の低い補間法、つまり、整数近似で許される。従って、因数分解技法を高度から中程度の動き領域ブロック

284に適用し、整数近似法をバックグラウンドブロック286に適用する。先に説明したように、ブロックが高度の動きと関連付けられるかどうか、つまり、因数分解による半画素動き補償を適用するかどうか、もしくはブロックがバックグラウンドデータかどうか、つまり、整数近似による完全画素動き補償を適用するかどうかを判定するために、ビットストリームに埋め込まれた情報が検出される。1実施例では、図2、6B、15に示した動きベクトルが、動き補償が半画素か又は完全画素の動き補償かどうかを指定している。

【0076】なお、先に説明した実施例はソフトウェアで実行しても、ハードウェアで実行しても構わない。当業者ならば、デコーダを、先に説明した機能を実現できるように構成された論理ゲートを含む半導体チップとして実施できることが分かる。例えば、ビデオデコーダをハードウェアで実現するには、本書で説明した必要な機能を実現するための論理ゲートのレイアウト及びファームウェアを合成するために、例えば、VERILOGなど、ハードウェア記述言語(HDL)を採用することができる。

【0077】図18は、本発明の1実施例による、メモリ所要量を最小限にするためのハイブリッドデータ構造を活用すると共に、ビットストリームデータを効率よく復号化するためのハイブリッド因数分解／整数近似技法を適用するように構成されたデコーダ回路構成を有する携帯用電子機器の簡約概略図である。携帯用電子機器290は、中央処理機構(CPU)294、メモリ292、ディスプレイ画面136、デコーダ回路構成298を含み、これらは全てバス296で互いに通信し合っている。デコーダ回路構成298は、先に説明したビデオ処理並びに圧縮領域で逆動き補償を実行するのに要するメモリ所要量を低減する機能を提供できるように構成された論理ゲートを含む。当業者ならば、デコーダ回路構成298はデコーダ回路構成が入っているチップ上にメモリを有していても、或いはメモリはチップの外に配置されていても構わないことが明らかである。

【0078】図19は、本発明の1実施例による、図18のデコーダ回路構成のより詳細な概略図である。入ってくるビットストリーム122は、デコーダ298の可変長デコーダ(VLD)回路構成300によって受け取られる。当業者ならば、デコーダ回路構成298をプリント配線板上に配置された半導体チップ上に設置して構わないことが分かる。VLD回路構成300は、動き補償回路構成306に動きベクトル信号を供給する。ビデオ処理メモリ308は、圧縮領域で反量子化回路構成302からのビデオの内部表現を保持する。DCT回路構成304は動き補償回路構成306からのビデオの内部DCT表現を維持する。ランレンジス復号(RLD)回路310及び逆離散コサイン変換(IDCT)回路構成312は、ディスプレイ画面136に表示できるようにビデオデータを解凍する。なお、ここで説明している回路構成のブ

ロックは、図2、6B、15において説明したブロック／ステージと同じような機能を提供する。

#### 【0079】

【発明の効果】要約すると、今まで説明してきた発明は、ビデオメモリ量を減らし、圧縮領域で逆動き補償を実行する圧縮領域ビデオデコーダを提供するものである。現フレームを定義するために基準フレームの非零DCT係数を保持及び操作するように構成されたハイブリッドデータ構造によりメモリ低減を実現する。ハイブリッドデータ構成は、ビデオデータフレームの各ブロックと関連付けられる固定サイズブロックを有する固定サイズアレイを含んでいる。固定サイズブロックの容量を超える非零係数を収容できるように、ハイブリッドデータ構造には可変サイズオーバーフローベクトルが備わっている。圧縮領域ビデオデコーダにより達成されたメモリ圧縮量は、空間領域ビデオデコーダと比べ、上限で2倍である。圧縮領域ビデオデコーダの逆動き補償は、容認できる画質のビデオで毎秒約15～25フレームを実現できるように最適化される。復号中のブロックにハイブリッド因数分解／整数近似が選択的にかけられる。因数分解／整数近似技法のうちのどの補間を適用するかを判定する基準は、変換行列に基づく。つまり、半画素行列には因数分解が適用されるのに対し、完全画素行列には整数近似が適用される。なお、1実施例では、本書で説明した圧縮領域パイプラインをMPEG-4のシンプルプロファイルビデオデコーダに取り入れることができる。さらに、実施例により、例えば、電池で動く(CPU制約型)機器のパワースケーラブル復号化やビデオ会議システムの複合化など、多種多様なアプリケーションを追求できるようになる。

【0080】上述の実施例を考慮すれば、本発明は、コンピュータシステムに保持されたデータを必要とするいろいろなコンピュータで実行されるオペレーションを採用することができる事が分かる。こうしたオペレーションには、物理的数量の物理的操作が含まれる。必ずしもそうとは限らないが、普通、こうした数量は、保持、変換、結合、比較、さもなければ操作の対象となり得る電気信号又は磁気信号の形をとる。さらに、実行される操作は、生成、識別、判定、又は比較といったような言葉で示されることが多い。

【0081】以上説明した本発明は、ハンドヘルド機器、マイクロプロセッサシステム、マイクロプロセッサベースの或いはプログラマブル消費者向けエレクトロニクス、ミニコンピュータ、メインフレームコンピュータなど、その他のコンピュータシステム構成と共に実施することができる。本発明は、通信ネットワークを経由してリンクされている遠隔処理装置によってタスクが実行される分散型コンピューティング環境において実施することができる。

【0082】本発明は、コンピュータ可読媒体上のコン

ピュータ可読コードとして実施することもできる。コンピュータ可読媒体は、データを保持し、後からそのデータをコンピュータシステムが判読できればどんなデータ記憶装置でも構わない。コンピュータ可読媒体の例としては、ハードドライブ、ネットワーク接続記憶装置（NAS）、読み取り専用メモリ、ランダムアクセスメモリ、CD-ROM、CD-R、CD-RW、磁気テープや、その他の光学式および非光学式データ記憶装置がある。分散してコンピュータ可読コードを保持及び実行されるように、コンピュータ可読媒体をネットワークでつながったコンピュータシステムで分散することもできる。コンピュータ可読媒体は、コンピュータコードを含んだ電磁搬送波でも構わない。

【0083】以上、本発明を、はっきり理解できるように、より詳細に説明してきたが、添付した特許請求の範囲内で変更、修正が可能なことは明らかである。従って、本願の実施例は説明のため、制約するためのものではない。また、本発明は、本書で説明した詳細に限定されるものではないけれども、特許請求の範囲内及び特許請求と同等の範囲内で修正可能である。請求項において、要素及び／又は工程は、請求項にはっきりと明記されていない限り、何らオペレーションの特定の順序を暗に示しているものではない。

#### 【図面の簡単な説明】

本発明は、添付の図面と共に以下に述べる詳細な説明により容易に理解できるだろう。類似した構造上の要素を類似の参照番号で示している。

【図1】 ビデオデータを復号化すると共に空間領域で動き補償を実行するためのビデオデコーダの概略図。

【図2】 本発明の1実施例による、逆動き補償が圧縮領域で実行されるように構成されたビデオデコーダの概略図。

【図3】 空間領域で実行される逆動き補償を説明している概略図。

【図4】 H.263規格と関連付けられる強制更新メカニズムの有効性を実証するために、複数のフレームのピクの信号対雑音比（PSNR）を説明しているグラフ。

【図5】 H.263規格における半画素値の判定を説明している概略図。

【図6】 A：ベースライン空間ビデオデコーダの概略図。B：本発明の1実施例による、圧縮領域ビデオデコーダの概略図。

【図7】 本発明の1実施例による、ビデオ符号化及び復号化プロセス時のブロック変換を説明しているブロック図。

【図8】 ランレングス表現における各8×8ブロック

の開始位置を見出すために個別のインデックスの使用を説明している概略図。

【図9】 A、B：それぞれ、アレイベースのデータ構造及びリストデータ構造で、予測に予測誤差を加算するために必要な類別及び併合操作を説明する図。

【図10】 本発明の1実施例による、メモリ圧縮及び計算効率性を可能にするアレイ構造及びベクトル構造を含むハイブリッドデータ構造の概略図。

【図11】 A、B、C：本発明の1実施例による、ハイブリッドデータ構造の固定サイズアレイの固定サイズブロックの容量及びオーバーフローベクトルを判定する際に評価される因子を説明しているグラフ。

【図12】 本発明の1実施例による、ビットストリームを復号化するためのメモリ所要量を低減する方法のオペレーションを説明しているフローチャート。

【図13】 行列乗算を減らすためのブロックアライメントの3つの例を説明している概略図。

【図14】 完壁にアライメントされたDCTブロックの半画素補間の概略図。

【図15】 本発明の1実施例による、ビデオデータの処理を向上させる圧縮領域ビデオデコーダの機能ブロックの並べ替えを説明する概略図。

【図16】 本発明の1実施例による、圧縮領域で逆動き補償を実行するための方法のオペレーションを示すフローチャート。

【図17】 本発明の1実施例による、ハイブリッド因数分解／整数近似技法の選択的な適用の概略図。

【図18】 本発明の1実施例による、メモリ所要量を最小限にするためにハイブリッドデータ構造を活用すると共にビットデータストリームを効率的に復号化するためにハイブリッド因数分解／整数近似技法を適用するように構成されたデコーダ回路構成を有する携帯用電子機器の簡約概略図。

【図19】 本発明の1実施例による、図18のデコーダ回路構成のより詳細な概略図。

#### 【符号の説明】

|         |            |
|---------|------------|
| 100,120 | デコーダ       |
| 102,122 | ビットストリーム   |
| 104,124 | 可変デコーダ     |
| 106,132 | ランレングスデコーダ |
| 108,126 | 反量子化       |
| 110,134 | 逆離散コサイン変換  |
| 112,128 | 動き補償       |
| 114,130 | メモリ        |
| 116,136 | ディスプレイ     |
| 160     | 半画素補間      |

【図1】



【図2】



【図8】

【図3】



【図4】



【図5】



【図6】



【図14】



【図7】



【図9】

【図10】



【図13】

【図15】



【図11】



【図12】



【図17】



【図16】



【図18】



【図19】



フロントページの続き

(72)発明者 ヴァスデヴ バスカラ  
アメリカ合衆国 カリフォルニア州 サニ  
ーベール ノース マーフィ アベニュー  
190

Fターム(参考) 5C059 KK08 MA00 MA05 MA23 MC11  
MC38 ME05 NN15 NN21 PP04  
SS10 SS20 TA61 TC00 UA05  
UA33  
5J064 AA03 BA09 BB05 BC01 BC02  
BC08 BC09 BC14 BC23 BD03

【外國語明細書】

1. Title of Invention

Method and Apparatus for Memory Efficient Compressed Domain Video Processing and for Fast Inverse Motion Compensation Using Factorization and Integer Approximation

2. Claims

1. A method for reducing the memory requirements for decoding a bit stream, comprising:

receiving a video bit stream;

decoding a frame of the bit stream into a transform domain representation;

identifying non-zero coefficients of the transform domain representation;

assembling a hybrid data structure including a fixed size array and a variable size overflow vector; and

inserting the non-zero coefficients of the transform domain representation into the hybrid data structure.

2. The method of claim 1, wherein the video bit stream is a low rate video bit stream.

3. The method of claim 1, wherein the method operation of decoding a frame of the bit stream into a transform domain representation includes, processing the bit stream through a variable length decoder and a dequantization block.

4. The method of claim 1, wherein the fixed size array includes fixed size blocks.

5. The method of claim 4 wherein the fixed size blocks are configured to store 8 non-zero coefficients of the transform domain representation.

6. The method of claim 1, wherein the method operation of inserting the non-zero coefficients of the transform domain representation into the hybrid data structure includes,

mapping coefficients in the fixed size array to corresponding coefficients in the variable size overflow vector for each block of the frame.

7. A method for decoding video data, comprising:

receiving a frame of video data within a compressed bit stream;

decoding a block of the frame into a transform domain representation in the compressed domain;

defining a hybrid data structure;

storing data associated with the transform domain representation in the hybrid data structure;

performing inverse motion compensation on the data associated with the transform domain representation in the compressed domain; and

after performing the inverse motion compensation on the data, decompressing the data for display.

8. The method of claim 7, wherein the hybrid data structure includes a fixed size array of fixed size blocks and a variable size overflow vector

9. The method of claim 7, wherein the method operation of storing data associated with the transform domain representation in the hybrid data structure includes,

identifying non-zero coefficients of the transform domain representation;

storing the non-zero coefficients into a fixed size block of the fixed size array of the hybrid data structure until a capacity of the fixed size blocks is reached; and

after reaching the capacity of the fixed size blocks, storing non-zero coefficients exceeding the capacity of the fixed size blocks in an overflow vector.

10. The method of claim 7, wherein the compressed bit stream is a low rate bit stream.

11. The method of claim 7, wherein the method operation of performing inverse motion compensation on the data associated with the transform domain representation in the compressed domain includes, applying a hybrid factorization and integer approximation technique to the data associated with the transform domain representation.

12. A computer readable media having program instructions for rearranging low rate bit stream data for storage into a hybrid data structure, comprising:

program instructions for identifying non-zero transform coefficients associated with a coded block of a frame of data;

program instructions for arranging the non-zero transform coefficients into a fixed size array;

program instructions for determining if a quantity of the non-zero transform coefficients exceed a capacity of the fixed size array;

program instructions for storing the non-zero transform coefficients exceeding the capacity of the fixed size array in a variable size overflow vector; and

program instructions for translating the non-zero transform coefficients from a compressed domain to a spatial domain.

13. The computer readable media of claim 12, wherein the fixed size array includes a plurality of fixed size blocks.

14. The computer readable media of claim 13, wherein each of the fixed size blocks are configured to store a maximum of eight non-zero transform coefficients.

15. The computer readable media of claim 12, further including:  
program instructions for mapping coefficients in the fixed size array to corresponding coefficients in the variable size overflow vector for each block of the frame of data.
16. The computer readable media of claim 12, further including:  
program instructions for performing inverse motion compensation on the non-zero transform coefficients through the application of a hybrid factorization and integer approximation technique.
17. A circuit, comprising:  
a video decoder integrated circuit chip, the video decoder integrated circuit chip including,  
circuitry for receiving a bit stream of data associated with a frame of video data;  
circuitry for decoding the bit stream of data into a transform domain representation;  
circuitry for arranging non-zero transform coefficients of the transform domain representation in a hybrid data structure in a memory associated with the video decoder; and  
circuitry for decompressing the non-zero transform coefficients of the transform domain representation for display.
18. The circuit of claim 17, wherein the bit stream is a H.263 bit stream.
19. The circuit of claim 17, wherein the memory is separate from the video decoder integrated circuit chip.
20. The circuit of claim 17, further including:  
circuitry for performing inverse motion compensation through a hybrid factorization and integer approximation technique.
21. The circuit of claim 17, wherein the memory is a static random access memory.

22. A device configured to display a video image, comprising:
  - a central processing unit (CPU);
  - a random access memory (RAM);
  - a display screen configured to present an image;
  - decoder circuitry configured to transform a video bit stream into a transform domain representation, the decoder circuitry capable of arranging non-zero transform coefficients of the transform domain representation in a hybrid data structure in a memory associated with the decoder circuitry, the decoder circuitry including circuitry for selectively applying a hybrid factorization/integer approximation technique during inverse motion compensation; and
  - a bus in communication with the CPU, the RAM, the display screen and the decoder circuitry.
23. The device of claim 22, wherein the device is a portable electronic device.
24. The device of claim 23, wherein the portable electronic device is selected from the group consisting of a personal digital assistant, a cellular phone, a web tablet and a pocket personal computer.
25. The device of claim 22, wherein the hybrid data structure includes a fixed size array having a plurality of fixed size blocks and a variable size overflow vector.
26. The device of claim 25, wherein each of the plurality of fixed size blocks are configured to hold 8 non-zero transform coefficients.
27. The device of claim 26, wherein non-zero transform coefficients in excess of 8 are stored in the variable size overflow vector.
28. The device of claim 22, wherein the decoder circuitry includes an on-chip memory configured to store data associated with the hybrid data structure.
29. The device of claim 22, wherein the circuitry for selectively applyi

ng a hybrid factorization/integer approximation technique during inverse motion compensation includes,

circuitry for identifying blocks of a frame of the video image as being associated with one of an active motion area and an inactive motion area; and circuitry for performing inverse motion compensation by applying a factorization technique to the blocks associated with the active motion area and an integer approximation technique to the blocks associated with the inactive motion area.

30. The device of claim 22, wherein the video bit stream is a low rate video bit stream.

31. A method for performing inverse memory compensation, comprising: receiving a video bit stream;

identifying a transform matrix type selected from the group consisting of a half pixel matrix and a full pixel matrix;

if the transform matrix type is a half pixel matrix, the method includes

applying a factorization technique to decode the bit stream corresponding to the half pixel matrix; and

if the transform matrix type is a full pixel matrix, the method includes

applying an integer approximation technique to decode the bit stream corresponding to the full pixel matrix.

32. The method of claim 31, wherein the video bit stream is a low rate video bit stream.

33. The method of claim 31, wherein the method operation of applying the factorization technique to decode the bit stream corresponding to the half pixel matrix includes,

factoring the half pixel matrix into a sequence of sparse matrices, the sparse matrices including permutation matrices and diagonal matrices.

34. The method of claim 31, wherein the method operation of applying an integer approximation technique to decode the bit stream corresponding to the full pixel matrix includes:  
approximating each element of the full pixel matrix with binary numbers.
35. The method of claim 34, wherein each element is rounded to a nearest power of two.
36. A method for decoding video data, comprising:  
receiving a frame of video data within a compressed bit stream;  
decoding a block of the frame into a transform domain representation in the compressed domain;  
storing data associated with the transform domain representation in a hybrid data structure;  
performing inverse motion compensation on the data associated with the transform domain representation in the compressed domain; the performing inverse motion compensation including,  
determining a type of transform matrix associated with a portion of the frame of video data; and  
applying a hybrid factorization and integer approximation technique to enhance inverse motion compensation.
37. The method of claim 36, wherein the compressed bit stream is associated with a standard selected from the group consisting of H.263, H.261 and Motion Pictures Expert Group.
38. The method of claim 36, wherein the hybrid data structure includes a fixed size array and a variable size overflow vector.
39. The method of claim 36, wherein the type of transform matrix is selected from the group consisting of a half pixel matrix and a full pixel matrix.
40. The method of claim 39, wherein the half pixel matrix is associated with a high motion region of an image and the full pixel matrix is asso

iated with a minimal motion region of the image.

41. The method of claim 36, wherein the method operation of applying a hybrid factorization and integer approximation technique to enhance inverse motion compensation includes,

applying a factorization technique to matrices associated with blocks corresponding to high motion regions of the frame; and

applying an integer approximation technique to remaining blocks of the frame.

42. The method of claim 36, wherein the compressed bit stream is a low rate bit stream.

43. A computer readable media having program instructions for performing inverse motion compensation in a compressed domain, comprising:  
program instructions for identifying a transform matrix;  
program instructions for determining if the transform matrix is one of a half pixel matrix and a full pixel matrix;  
program instructions for applying a factorization technique to decode blocks of the bit stream corresponding to the half pixel matrix; and  
program instructions for applying an integer approximation technique to decode blocks of the bit stream corresponding to the full pixel matrix.

44. The computer readable media of claim 43, wherein the program instructions for performing inverse motion compensation is executed in the compressed domain.

45. The computer readable media of claim 43, further including:  
program instructions for extracting motion vector data, the motion vector data identifying the transform matrix as one of the half pixel matrix and the full pixel matrix.

46. The computer readable media of claim 43, further including:  
program instructions for arranging non-zero transform coefficients associated with a coded block of a frame of data into a hybrid data structure

47. The computer readable media of claim 43, wherein the program instructions for applying an integer approximation technique to decode blocks of the bit stream corresponding to the full pixel matrix includes, program instructions for approximating each element of the full pixel matrix with binary numbers.

48. The computer readable media of claim 43, wherein the program instructions for applying a factorization technique to decode blocks of the bit stream corresponding to the half pixel matrix includes, program instructions for factoring the half pixel matrix into a sequence of sparse matrices, the sparse matrices including permutation matrices and diagonal matrices.

49. A circuit, comprising:  
an integrated circuit chip configured to decode video data, the integrated circuit chip including,  
circuitry for receiving a bit stream of data associated with a frame of video data;  
circuitry for decoding the bit stream of data into a transform domain representation;  
circuitry for identifying a type of transform matrix; and  
circuitry for performing inverse motion compensation through a hybrid factorization and integer approximation technique.

50. The circuit of claim 49, wherein the integrated circuit chip further includes:  
circuitry for arranging non-zero transform coefficients of the transform domain representation in a hybrid data structure.

51. The circuit of claim 49, wherein the bit stream is a low rate bit stream.

52. The circuit of claim 49, wherein the circuitry for performing inverse

e motion compensation through a hybrid factorization and integer approximation technique is configured to apply a factorization technique to a half pixel transform matrix and an integer approximation technique to a full pixel transform matrix.

53. The circuit of claim 49, further including a memory in communication with the integrated circuit chip.

54. The circuit of claim 49, wherein the hybrid factorization and integer approximation technique is applied to data in the compressed domain.

55. A video decoder, comprising:

a variable length decoder (VLD) configured to extract coefficient values and motion vector data from an incoming bit stream;

a dequantization block in communication with the VLD, the dequantization block configured to rescale the coefficient values;

a lower branch in communication with the dequantization block, the lower branch configured to decode error coefficients into a spatial domain; and

an upper branch in communication with the dequantization block, the upper branch configured to maintain an internal transform domain representation, the upper branch configured to generate a spatial domain output capable of being added to the decoded error coefficients to reconstruct a current block.

56. The video decoder of claim 55, wherein the video decoder is implemented in software.

57. The video decoder of claim 55, wherein the video decoder is implemented in hardware.

58. The video decoder of claim 55, wherein the incoming bit stream is a low rate bit stream.

59. The video decoder of claim 55, wherein the upper branch includes a feedback loop, the feedback loop including a frame buffer, a motion compe

nsation block and a discrete cosine transform block.

60. The video decoder of claim 55, wherein the lower branch includes a run length decode block and an inverse transform block.

61. The video decoder of claim 55, wherein inverse motion compensation operations are performed in a compressed domain.

62. The video decoder of claim 55, wherein non-zero coefficients of the transform domain representation are arranged in a hybrid data structure in memory associated with the video decoder in order to reduce memory requirements.

63. The video decoder of claim 62, wherein the hybrid data structure includes a fixed size array and a variable size overflow vector.

64. The video decoder of claim 61, wherein the inverse motion compensation includes a hybrid factorization and integer approximation technique.

65. The video decoder of claim 64, wherein the hybrid factorization and integer approximation technique is configured to apply a factorization technique to a half pixel transform matrix and an integer approximation technique to a full pixel transform matrix.

### 3. Background of the Invention

#### Field of the Invention

This invention relates generally to digital video technology and more particularly to a method and apparatus for implementing efficient memory compression methods and to a method and apparatus for implementing efficient inverse motion compensation methods for a compressed domain video decoder.

#### Description of the Related Art

The access of video on mobile terminals, such as cellular phones and personal digital assistants, presents many challenges because of the limit

ations due to the nature of the mobile systems. For example, low-powered, handheld devices are constrained under bandwidth, power, memory, and cost requirements. The video data received by these handheld devices are decoded through a video decoder. The video decoders associated with such terminals perform motion compensation in the spatial domain, i.e., decompressed domain. Video compression standards, such as H.263, H.261 and MPEG-1/2/4, use a motion-compensated discrete cosine transform (DCT) scheme to encode videos at low bit rates. As used herein, low bit rates refer to bit rates less than about 64 kilobits per second. The DCT scheme uses motion estimation (ME) and motion compensation (MC) to remove temporal redundancy and DCT to remove the remaining spatial redundancy.

Figure 1 is a schematic diagram of a video decoder for decoding video data and performing motion compensation in the spatial domain. Bit stream 102 is received by decoder 100. Decoder 100 includes variable length decoder (VLD) stage 104, run length decoder (RLD) stage 106, Dequantization (DQ) stage 108, inverse discrete cosine transform (IDCT) stage 110, motion compensation (MC) stage 112 and memory (MEM) 114, also referred to as a frame buffer. The first four stages (VLD 104, RLD 106, DQ 108, and IDCT 110) decode the compressed bit stream back into the pixel domain. For an intra-coded block, the output of the first four stages, 104, 106, 108 and 110, is used directly to reconstruct the block in the current frame. For an inter-coded block, the output represents the prediction error and is added to the prediction formed from the previous frame to reconstruct the block in the current frame. Accordingly, the current frame is reconstructed on a block by block basis. Finally, the current frame is sent to the output of the decoder, i.e., display 116, and is also stored in frame buffer (MEM) 114.

MEM 114 stores the previously decoded picture required by motion compensation 112. The size of MEM 114 must scale with the incoming picture so

format. For example, H.263 supports five standardized picture formats: (1) sub-quarter common intermediate format, (sub QCIF), (2) quarter common intermediate format (QCIF), (3) common intermediate format (CIF), (4) 4CIF, and (5) 16CIF. Each format defines the width and height of the picture as well as its aspect ratio. As is generally known, pictures are coded as a single luminance component and two color difference components (Y,Cr,Cb). The components are sampled in a 4:2:0 configuration, and each component has a resolution of 8 bits/pixel. For example, the video decoder of Figure 1 must allocate approximately 200 kilobytes of memory for MEM 114 while decoding a H.263 bit stream with CIF format. Furthermore, when multiple bit streams are being decoded at once, as required by video conferencing systems, the demands for memory become excessive.

MEM 114 is the single greatest source of memory usage in video decoder 100. In order to reduce memory usage, one approach might be to reduce the resolution of the color components for the incoming bit stream. For example, if the color display depth on the mobile terminal can only show 65,536 colors, then it is possible to reduce the resolution of the color components (Y,Cr,Cb) from 24 bits/pixel down to 16 bits/pixel. While this technique can potentially reduce memory usage by 30%, it is a display dependent solution that must be hardwired in the video decoder. Also, this technique does not scale easily with changing peak signal-to-noise ratio (PSNR) requirements, therefore, this approach is not flexible.

Operating on the data in the spatial domain requires increased memory capacity as compared to compressed domain processing. In the spatial domain, the motion compensation is readily calculated and applied to successive frames of an image. However, when operating in the compressed domain motion compensation is not as straightforward as a motion vector pointing back to a previous frame since the error values are no longer spatial values, i.e., the error values are not pixel values when operating in

the compressed domain. Additionally, methods capable of efficiently handling compressed domain data are not available. Prior art approaches have focused mainly on transcoding, scaling and sharpening compressed domain applications. Additionally, inverse compensation applications for the compressed domain tend to give poor peak signal to noise ratio (PSNR) performance and at the same time have an unacceptably slow response time in terms of the amount of frames per second that can be displayed.

As a result, there is a need to solve the problems of the prior art to provide a method and apparatus that minimizes the demands on memory for decoding low bit rate video data and to provide a method and apparatus to enable fast and efficient inverse motion compensation for a compressed domain video recorder.

#### Summary of the Invention

Broadly speaking, the present invention fills at least one aspect of these needs by providing a video decoder configured to minimize the memory requirements through the use of a hybrid data structure. It should be appreciated that this aspect of the present invention can be implemented in numerous ways, including as a method, a system, computer readable media or a device. Several inventive embodiments of this aspect of the present invention are described below.

In one embodiment, a method for reducing the memory requirements for decoding a bit stream is provided. The method initiates with receiving a video bit stream. Then, a frame of the bit stream is decoded into a transform (e.g., a discrete cosine transform (DCT)) domain representation. Next, non-zero coefficients of the transform domain representation are identified. Then, a hybrid data structure is assembled. The hybrid data structure includes a fixed size array and a variable size overflow vec

ter. Next, the non-zero coefficients of the transform domain representation are inserted into the hybrid data structure.

In another embodiment, a method for decoding video data is provided. The method initiates with receiving a frame of video data within a compressed bit stream. Then, a block of the frame is decoded into a transform (e.g., DCT) domain representation in the compressed domain. Next, a hybrid data structure is defined. Then, data associated with the transform domain representation is stored in the hybrid data structure. Next, inverse motion compensation is performed on the data associated with the transform domain representation in the compressed domain. After performing the inverse motion compensation on the data, the data is decompressed for display.

In yet another embodiment, computer readable media having program instructions for rearranging low rate bit stream data for storage into a hybrid data structure is provided. The computer readable media includes program instructions for identifying non-zero transform (e.g., DCT) coefficients associated with a coded block of a frame of data. Program instructions for arranging the non-zero transform coefficients into a fixed size array are included. Program instructions for determining if a quantity of the non-zero transform coefficients exceed a capacity of the fixed size array are provided. Program instructions for storing the non-zero transform coefficients exceeding the capacity of the fixed size array in a variable size overflow vector and program instructions for translating the non-zero transform coefficients from a compressed domain to a spatial domain are included.

In still yet another embodiment, a circuit is provided. The circuit includes a video decoder integrated circuit chip. The video decoder integrated circuit chip includes circuitry for receiving a bit stream of data associated with a frame of video data. Circuitry for decoding the bit

stream of data into a transform (e.g., DCT) domain representation is included in the video decoder. Circuitry for arranging non-zero transform coefficients of the transform domain representation in a hybrid data structure in a memory associated with the video decoder is provided. Circuitry for decompressing the non-zero transform coefficients of the transform domain representation for display is also provided.

In another embodiment, a device configured to display an image is provided. The device includes a central processing unit (CPU), a random access memory (RAM), and a display screen configured to present an image. Decoder circuitry configured to transform a video bit stream into a transform (e.g., DCT) domain representation is included. The decoder circuitry is capable of arranging non-zero transform coefficients of the transform domain representation in a hybrid data structure in a memory associated with the decoder circuitry. The decoder circuitry includes circuitry for selectively applying a hybrid factorization/integer approximation technique during inverse motion compensation. A bus in communication with the CPU, the RAM, the display screen and the decoder circuitry is also included.

Broadly speaking, the present invention fills at least another aspect of these needs by providing a video decoder capable of performing inverse motion compensation in the compressed domain while reducing memory requirements and provide acceptable video quality. It should be appreciated that this aspect of the present invention can be implemented in numerous ways, including as a method, a system, computer readable media or a device. Several inventive embodiments of this aspect of the present invention are described below.

In one embodiment, a method for performing inverse memory compensation is provided. The method initiates with receiving a video bit stream. Then, a transform matrix type is identified. The transform matrix type is

s either a half pixel matrix or a full pixel matrix. If the transform matrix type is a half pixel matrix, then the method includes applying a factorization technique to decode the bit stream corresponding to the half pixel matrix. If the transform matrix type is a full pixel matrix, then the method includes applying an integer approximation technique to decode the bit stream corresponding to the full pixel matrix.

In another embodiment, a method for decoding video data is provided. The method initiates with receiving a frame of video data within a compressed bit stream. Then, a block of the frame is decoded into a transform (e.g., a discrete cosine transform (DCT)) domain representation in the compressed domain. Next, data associated with the transform domain representation is stored in a hybrid data structure. Then, inverse motion compensation is performed on the data associated with the transform domain representation in the compressed domain. Determining a type of transform matrix associated with a portion of the frame of video data, and applying a hybrid factorization and integer approximation technique to enhance inverse motion compensation are included in performing the inverse motion compensation.

[0017] In yet another embodiment, a computer readable media having program instructions for performing inverse motion compensation in a compressed domain is provided. The computer readable media includes program instructions for identifying a transform matrix. Program instructions for determining if the transform matrix is either a half pixel matrix or a full pixel matrix are included. Program instructions for applying a factorization technique to decode blocks of the bit stream corresponding to the half pixel matrix and program instructions for applying an integer approximation technique to decode blocks of the bit stream corresponding to the full pixel matrix are included.

In still yet another embodiment, a circuit is provided. The circuit is

cludes an integrated circuit chip configured to decode video data. The integrated circuit chip includes circuitry for receiving a bit stream of data associated with a frame of video data. Circuitry for decoding the bit stream of data into a transform (e.g., DCT) domain representation is included on the integrated circuit chip. Circuitry for identifying a type of transform matrix and circuitry for performing inverse motion compensation through a hybrid factorization and integer approximation technique are provided on the integrated circuit chip.

In another embodiment, a video decoder is provided. The video decoder includes a variable length decoder (VLD) configured to extract coefficient values and motion vector data from an incoming bit stream. A dequantization block in communication with the VLD is included. The dequantization block is configured to rescale the coefficient values. A lower branch in communication with the dequantization block is provided. The lower branch is configured to decode error coefficients into the spatial domain. An upper branch in communication with the dequantization block is included. The upper branch is configured to maintain an internal transform (e.g., DCT) domain representation. The upper branch is further configured to generate a spatial domain output capable of being added to the decoded error coefficients to reconstruct a current block.

Other aspects and advantages of the invention will become apparent from the following detailed description, taken in conjunction with the accompanying drawings, illustrating by way of example the principles of the invention.

#### Detailed Description of the Preferred Embodiments

An invention is described for a system, apparatus and method for minimizing memory capacity for compressed domain video decoding. It will be a

pparent, however, to one skilled in the art, in view of the following description, that the present invention may be practiced without some or all of these specific details. In other instances, well known process operations have not been described in detail in order not to unnecessarily obscure the present invention. Figure 1 is described in the "Background of the Invention" section. The term about as used to herein refers to +/- 10% of the referenced value.

The embodiments described herein provide data structures that enable the reduction of the memory used while decoding video data in the compressed domain. In one embodiment, the video decoding pipeline is rearranged such that the current frame is stored, and the inverse motion compensation is performed, in the frequency domain, i.e., compressed-domain. Hybrid data structures allow for the manipulation of the data in the compressed domain without computational cost or any significant loss of data.

In one embodiment, the hybrid data structures take advantage of the fact that there are only a small number of non-zero discrete cosine transform (DCT) coefficients within a coded block. Thus, only the non-zero DCT coefficients of the entire frame are stored, thereby reducing the memory requirements. As will be explained in more detail below, the hybrid data structure includes a fixed size array and a variable size overflow vector. The variable size overflow vector stores the non-zero DCT coefficients of the coded blocks that exceed the capacity of the fixed size array.

Figure 2 is a schematic diagram of a video decoder arranged such that inverse motion compensation is performed in the compressed domain in accordance with one embodiment of the invention. Here, bit stream 122 is received by video decoder 120. The first two stages variable length decoder (VLD) stage 124 and dequantization (DQ) stage 126, decode the compressed bit stream into a DCT domain representation. The DCT domain represe

ntation is stored in memory (MEM) 130, also referred to as a frame buffer, for use in motion compensation (MC) stage 128. Run length decoder (RLD) stage 132 and inverse DCT (IDCT) stage 134 is performed after the motion compensation feedback loop which contains MC 128 and MEM 130. Thus, the internal representation of the block being decoded is kept in the compressed domain. There are only a small number of nonzero DCT coefficients within a coded block, therefore, this characteristic can be exploited by developing data structures for MEM 130 that store only the nonzero DCT coefficients of each block in the frame. As will be shown in more detail below, the memory compression enabled through the hybrid data structures can reduce memory usage by 50% without any loss in video quality. Since the human visual system is more sensitive to the lower order DCT coefficients than the higher order DCT coefficients, thresholding schemes that filter out higher order DCT coefficients and tradeoff memory usage versus changing power or peak signal to noise ratio (PSNR) requirements are developed as described below.

Accordingly, a complete compressed domain video decoding pipeline that is optimized for both fast and memory efficient decoding is described herein. In one embodiment, TELEOR's video decoder, which is a public domain H.263 compliant decoder, is used for the testing referred to herein.

It should be appreciated that while some of the embodiments described below refer to a H.263 bit stream, the embodiments are not limited to operating on a H.263 bit stream. That is, any DCT based compressed bit stream having video data, e.g., Motion Picture Expert Group (MPEG) 1/2/4, H.261, etc. may be employed. A number of fast inverse motion compensation algorithms for the discrete cosine transform (DCT) domain representation enable the efficient processing in the compressed domain. It should be appreciated that memory compression methods that store the nonzero DCT coefficients within a coded block allow for the reduction in memory

requirements due to the compressed domain processing. Additionally, performance of the video decoder using compressed domain processing with the inverse motion compensation techniques and memory compression described herein is evaluated along three dimensions: computational complexity, memory efficiency, and PSNR, to show the various performance tradeoffs in optimizing for both speed and memory.

Figure 3 is a schematic diagram illustrating inverse motion compensation as performed in the spatial domain. Here, a prediction of the current block is performed from motion compensated blocks in the reference frame. The current 8x8 spatial block,  $f_k$  142, of current frame 140 is derived from four reference blocks  $f'_1$ ,  $f'_2$ ,  $f'_3$ , and  $f'_4$ , 144-1 through 144-4, respectively, in reference frame 146. The reference blocks are selected by calculating the displacement of  $f_k$  by the motion vector  $(\Delta x, \Delta y)$  and choosing those blocks that the motion vector intersects in the reference frame. For  $(\Delta x > 0, \Delta y > 0)$ ,  $f_k$  is displaced to the right and down. From the overlap of  $f_k$  with  $f'_1$ , we can determine the overlap parameters  $(w, h)$  and also the parameters  $(8-w, h)$ ,  $(w, 8-h)$ , and  $(8-w, 8-h)$  with the neighboring blocks.

$$f_k = \sum_{i=1}^4 c_{i1} f'_i c_{i2} \quad (2)$$

Since each block can be represented as an 8x8 matrix, the reconstruction of matrix  $f_k$  can be described as the summation of windowed and shifted matrices  $f'_1, \dots, f'_4$ . In equation (Eq.) (2), the matrices  $c_{ij}$ ,  $i = 1, \dots, 4$ ,  $j = 1, 2$ , perform the windowing and shifting operations on  $f'_i$ . The matrices  $c_{ij}$  are sparse 8x8 matrices of zeroes and ones. Also,  $c_{ij}$  is a function of the overlap parameters  $(w, h)$  and is defined as

$$c_{11} = c_{21} = U_h = \begin{pmatrix} 0 & I_h \\ 0 & 0 \end{pmatrix}, \quad (3)$$

$$c_{12} = c_{22} = L_w = \begin{pmatrix} 0 & 0 \\ I_w & 0 \end{pmatrix}, \quad (4)$$

where  $I_h$  and  $I_w$  are identity matrices of dimension  $h \times h$  and  $w \times w$ , respectively. Similarly,

$$c_{31} = c_{41} = L_{8-h}, \quad (5)$$

$$c_{32} = c_{42} = L_{8-w}. \quad (6)$$

The inverse motion compensation in the DCT-domain reconstructs intracoded blocks from motion compensated intercoded blocks. The concept is similar to the spatial domain except that all coefficients are kept in the DCT-domain, i.e. reconstruct  $F_k$ , the DCT of  $f_k$ , directly from  $F'_1, \dots, F'_4$ , the DCT of  $f'_1, \dots, f'_4$ .

$S$  is defined as a matrix that contains the 8x8 basis vectors for a two-dimensional DCT. Using the unitary property of the DCT transform,  $S'S=I$ , it can be demonstrated that Eq. (2) is equivalent to

$$f_k = \sum_{i=1}^4 c_{i1} S^i S F'_i S' S c_{i2}. \quad (7)$$

Premultiplying both sides of Eq. (7) by  $S$ , and postmultiplying by  $S'$ , results in:

$$F_k = \sum_{i=1}^4 C_{i1} F'_i C_{i2}. \quad (8)$$

where  $C_y$  is the DCT of  $c_y$ . Eq. (8) calculates  $F_k$  as a summation of pre- and post-multiplied terms  $F'_1, \dots, F'_4$ . The matrix  $C_y$  is a single composite matrix that contains the sequence of transformations: inverse DCT, windowing, shifting, and forward DCT. Thus, Eq. (8) describes a method to calculate  $F_k$  directly from  $F'_1, \dots, F'_4$  using only matrix multiplications. These matrix multiplications operate in the DCT-domain without having to explicitly transform between the spatial and frequency domains. However, the matrix multiplications described are unacceptably slow. In turn, only about 5 frames per second can be displayed which results in a poor quality display. The DCT-domain inverse motion compensation algorithms described below focus on reducing the computational complexity of these matrix multiplications as the matrix multiplications become a bottleneck causing unacceptable delays.

Low bit rate video, i.e., video data having bit rates less than about 64 kilobits per second, is targeted for applications such as wireless video on cellular phones, personal digital assistants PDAs, and other handheld or battery operated devices, as well as being used for video conferencing applications. The H.263 standard is an exemplary standard that specifies the bit stream syntax and algorithms for video coding at low bit rates. The algorithms include transform coding, motion estimation/compensation, coefficient quantization, and run-length coding. Besides the baseline specification, version 2 of the standard also supports sixteen negotiable options that improve coding performance and provide error resilience.

Video encoded at low bit rates can become visibly distorted, especially those classified with high action, i.e., active motion blocks. As men-

ioned above, the embodiments described herein refer to the H.263 standard, however any suitable video codec standard can be employed with the embodiments. Some of the characteristics of the features of the H.263 standard are discussed below for informational purposes and are not meant to limit the invention for use with the H.263 standard. One characteristic of the H.263 standard is the absence of the group of pictures (GOP) and higher layers in the H.263 standard. Where baseline encoded sequence is composed of just a single intraframe (I frame) followed by a long sequence of interframes (P frames), the long sequence of P frames provides greater compression ratios since the temporal redundancy is removed between consecutive frames. However, motion estimation/motion compensation (ME/MC) also creates a temporal dependency such that errors generated during the lossy coding process will accumulate during the decoding process. The lack of I frames prevents the decoder from breaking this accumulation of errors. The H.263 standard has a forced update mechanism such that the encoder must encode a macroblock as an intrablock at least once every 132 times during the encoding process. Figure 4 is a graph illustrating the effectiveness of the forced update mechanism. As illustrated in Figure 4, the PSNR of the video fluctuates randomly but does not drift in any one direction for frames later in the sequence.

Figure 5 is a schematic diagram illustrating the determination of half pixel values in the H.263 standard. As is well known, the H.263 standard uses half pixel interpolation for motion compensation. In the standard, half pixel interpolation is indicated by motion vectors with 0.5 resolution (i.e. <7.5, 4.5>). The encoder can specify interpolation in the horizontal direction only, vertical direction only, or both horizontal and vertical directions. As illustrated by Figure 5, half pixel values are found by bilinear interpolation of integer pixel positions surrounding the half pixel position. Pixel position A 150-1, pixel position B 150

-2, pixel position C 150-3, and pixel position D 150-4, represent integer pixel positions, while position e 152-1, position f 152-2, and position g 152-3 represent half pixel positions. Interpolations in the horizontal direction may be represented as  $e=(A+B+1) \gg 1$  and interpolations in the vertical direction may be represented as  $f=(A+C+1) \gg 1$ . Interpolation  $s$  in the horizontal and vertical directions may be represented as  $g=(A+B+C+D+2) \gg 2$ .

Figures 6A and 6B are schematic diagrams of a baseline spatial video decoder and a compressed domain video decoder, respectively. The block diagram of Figure 6B rearranges some of the functional blocks of the spatial domain video decoder of Figure 6A. In particular, RLD 132 and IDCT 134 are moved after MC 128 feedback loop. This arrangement keeps the internal representation of the video in the compressed domain. The arrangement of Figure 6B allows for the insertion of compressed domain post processing modules right after MC 128 feedback loop. It should be appreciated that certain video manipulations, such as compositing, scaling, and deblocking, to name a few, are faster in the compressed domain over their spatial domain counterparts. However, from the video codec point of view, a spatial encoder is not perfectly matched to a compressed domain decoder. As shown in Figure 6B, the compressed domain video decoder differs from that of the spatial domain video decoder of Figure 6A at several points along the decoding pipeline. More than just a rearrangement of blocks, the points of difference represent nonlinear operations, such as clipping and rounding. These points of nonlinearity generate video with differing PSNR measurements between the two domains.

The nonlinear points are labeled as (i), (ii), (iii), (iv), and (v). In the spatial decoder of Figure 6A, IDCT block 134 transforms the incoming 8x8 block from the frequency domain to the spatial domain. The spatial domain values represent either pixel values or prediction error values for the color channels (Y, Cr, Cb). At point (i) of Figure 6A, the spatial values are clipped to the range (-255≤x≤256). Note that there is no equivalent clipping operation at this stage for the DCT coefficients in Figure 6B. The second point of difference occurs during motion compensation. MC block 128 in Figure 6A returns the pixel values from MEM 130 referenced by the current motion vector. At point (ii) of Figure 6A, half-pixel (HP) interpolation 160, if specified, averages the neighboring pixel values and rounds the result to the nearest positive integer. At point (iv) of Figure 6B, half-pixel (HP) interpolation 160 operates directly on DCT coefficients and rounds the result to the nearest positive or negative integer. Another point of difference occurs after the addition of the prediction error to the prediction value. At point (iii) of Figure 6A, the sum represents pixel values, which are clipped at block 162b to the range (0≤x≤255). Note that in Figure 6B similar clipping of pixel values is moved from the motion compensation feedback loop to the last stage of the decoding pipeline at block 162 (point v).

One skilled in the art will appreciate that, MEM 130 is a frame buffer that stores the previous frame for motion compensation. For the spatial domain decoder, the frame buffer allocates enough memory to store the

(Y,Cr,Cb) values for the incoming frame size. For example, CIF video sampled at 4:2:0 requires about 200 kilobytes of memory. As MEM 130 is the single greatest source of memory usage in the video decoder, a hybrid data structure and inverse motion compensation methods defined herein allow for the reduction of MEM usage for a compressed domain decoding pipeline. In one embodiment, two to three times memory compression, without any significant loss in the quality of the decoded video, is achieved.

Figure 7 is a block diagram illustrating the block transformations during the video encoding and decoding process in accordance with one embodiment of the invention. The sequence of transformations above dotted line 170 describes the spatial compression methods used by the video encoder for a block in an I-frame or a block in a P-frame after motion compensation/motion estimation. Pixel block 172 is a full 8x8 matrix. At this point, any compression or truncation in the spatial domain directly affects the perceived quality of the reconstructed block. After the DCT transform, however, transformed matrix 174 is compact with the larger terms at low frequencies. The quantization step further compacts the block by reducing to zero the smaller terms at high frequencies in block 176.

The zigzag scan highlighted in block 176 orders the DCT coefficients from low to high frequency. The runlength encoding discards the zero coefficients and represents only the nonzero DCT coefficients in a compact list of two-valued elements, e.g., run and level, in runlength representation 178. Thus, memory compression in the DCT domain can be achieved by developing efficient data structures and methods that store and access runlength representations of the nonzero DCT coefficients.

In one embodiment, a semi-compressed (SC) representation is one such memory efficient runlength representation. The runlength representation of the nonzero DCT coefficients similar to runlength representations 178 and 180 of Figure 7. However, there are two modifications. Each two-va

lued element (run, level) is described by a composite 16-bit value of the form:

$$RL = \text{binary } rrrrrrrrrrrrrr' \quad (9)$$

The 12 least significant bits ('rrrrrrrrrrrr') define the value of the dequantized DCT coefficient from block 184, which were derived from quantized block 182. It should be appreciated that block 184 is an example of a DCT domain representation. It will be apparent to one skilled in the art that the value of the DCT coefficients can range from -2048 to 2047. Block 186 of Figure 7 is a reconstructed block of block 172 after an IDCT operation is performed on block 184. The four most significant bits ('rrrr') define the value of the run. The run represents the position of the nonzero DCT coefficient relative to the position of the last nonzero DCT coefficient according to the zigzag scan in an 8x8 block. Since the run of a nonzero coefficient may exceed 15, an escape sequence is defined to split the run into smaller units. The escape sequence  $RL=FC$  is defined to represent a run of 15 zero coefficients followed by a coefficient of zero amplitude.

In order to reduce the memory requirements, data structures to store and access the SC representation must be developed. The following data structures were considered: array, linked list, vector, and hybrid. In developing these structures, a balance between the need for memory compression and the need to maintain low computational complexity is taken into consideration and discussed further with reference to Table 1 below. While the SC representation provides the targeted memory compression, certain data structures will greatly increase the computational complexity of the decoder in three areas. First, by employing the two-byte representation, the values of the (run, level) are not immediately available. Functions to pack and unpack the bits are needed for every access and modification to these values. Secondly, motion compensation is now compli

cated by the compact runlength representation. Thirdly, sort and merge operations are needed to add the prediction error to the prediction.

Figure 8 is a schematic diagram illustrating the use of a separate index to find the starting position of each 8x8 block in the runlength representation. If a single list 190, also referred to as vector, is used to store the runlength representation for all 8x8 blocks 192-1 through 192-4 in a frame, then access to a particular DCT block during motion compensation requires a separate index to lookup its start position, which complicates the motion compensation.

Figures 9A and 9B illustrate the sort and merge operations needed to add the prediction error to the prediction for an array-based data structure and a list data structure, respectively. In Figure 9A an array-based data structure requires only the addition of values at corresponding array indices. However, the array based data structure does not offer memory compression advantages. In Figure 9B, a list (or vector) data structure requires additional sort and merge operations. That is, the merge algorithm requires insertion and deletion functions, which can be very expensive in terms of computational complexity for data structures such as vectors. More particularly, if indices are equal then the DCT coefficients can be added or subtracted, e.g.,  $(0,20) + (0,620) = (0,640)$ . DCT coefficients are inserted if index in error precedes that in prediction, e.g., insert  $(0,-3)$ . DCT coefficients are deleted if addition of DCT values equals 0, e.g.,  $(1,13) + (4,-13) = (1,0)$ .

Table 1 compares the memory compression ratios and computational costs for various data structures. While array-based data structures incur no additional computational costs besides the 64 additions needed for the prediction updates, an array of DCT coefficients provides no memory compression over the array of pixels since each DCT coefficient needs two bytes instead of one for storage. A linked list or vector of semi-compre

sed (SC) representation provides up to 2.5 times memory compression over the array of pixels. However, neither solution is optimal since the insertion/deletion cost for a vector is expensive, especially insertions and deletions in the middle of the vector and the memory overhead for a linked list is expensive, as internal pointers are created for every element in the list.

TABLE 1

| Data Structure    | Memory Size (kilobytes) | Insertion/Deletion Cost | Memory Overhead | Compression Ratio   |
|-------------------|-------------------------|-------------------------|-----------------|---------------------|
| Array of Pixels   | 152                     | None                    | None            | None                |
| Array of DCT      | 304                     | None                    | None            | None                |
| Vector of SC      | 60                      | Expensive               | Minimal         | 2.5:1               |
| Linked List of SC | 60+overhead             | Moderate                | Expensive       | 2.5:1(w/o overhead) |
| Hybrid of SC      | 70                      | Moderate                | Minimal         | 2.2:1               |

A hybrid data structure for the SC representation provides the optimum balancing of the competing interests of Table 1. The hybrid data structure is developed to take advantage of the low computational cost of the array structure of Figure 9A and the high compression ratio of the vector structure of Figure 9B. The hybrid data structure consists of a fixed-size array that holds a fixed number of DCT coefficients per block and a variable-size overflow vector that stores the DCT coefficients of those blocks that exceed the fixed size array allocation. It should be appreciated that the fixed size array can be configured to hold any suitable number of DCT coefficients per block, wherein the number of DCT coefficients is less than 64. Of course, as the fixed size array becomes greater the amount of memory compression is decreased. In one embodiment, the fixed size array is configured to hold 8 DCT coefficients per block.

Figure 10 is a schematic diagram of a hybrid data structure including a array structure and a vector structure to allow for memory compression and computational efficiency in accordance with one embodiment of the i

vention. DCT blocks 200-1, 200-2 and 200-n include zero DCT coefficients and non-zero DCT coefficients. It should be appreciated that DCT blocks 200-1 through 200-n represent the DCT domain representation as discussed above with reference to Figure 2. In addition, blocks 200-1 through 200-n are associated with blocks of a frame of video data, e.g., block 184 of Figure 1. The non-zero DCT coefficients for each of blocks 200-1 through 200-n are identified and inserted into fixed size array 202 data structure. Fixed size array 202 includes fixed size blocks 204-1 through 204-n. In one embodiment, each block 204-1 through 204-n is sized to store 8 DCT coefficients in an 8x1 data structure. It should be appreciated that the invention is not limited to blocks configured to store 8 DCT coefficients as any suitable size may be used. As stated above, as the capacity of the blocks increases the amount of memory compression decreases.

Still referring to Figure 10, where there are more than 8 non-zero coefficients in any of DCT blocks 200-1 through 200-n, the non-zero DCT coefficients exceeding the capacity of respective fixed size blocks 204-1 through 204-n are placed in overflow vector 206. Overflow vector 206 is configured as a variable size overflow vector, i.e. the overflow vector is dynamic. For example, block 200-1 includes 9 non-zero DCT coefficients A1-A9. Here, DCT coefficients A1-A8 are copied to fixed size block 204-1, while DCT coefficient A9 is copied to overflow vector 206. Block 200-2 includes 10 non-zero DCT coefficients B1-B10. Here, DCT coefficients B1-B8 are copied to fixed size block 204-2, while DCT coefficients B9 and B10 are copied to overflow vector 206 and so on for each block of the frame. Index table 208 contains entries which identify corresponding fixed size blocks 204-1 through 204-n for the entries in overflow vector 206. The size of the index table is negligible as each entry is 1 byte. Accordingly, for a frame of data corresponding to DCT blocks 200-1 to

through 200-n, data from fixed size array 202 and overflow vector 206 are combined to produce image 210. It should be appreciated that the savings in memory is substantial. That is, DCT blocks 200-1 through 200-n are reduced from 64 zero and non-zero coefficients to 8 non-zero coefficients, or less, stored in fixed size blocks 204-1 through 204-n in most instances. Of course, more or less non-zero coefficients may be provided, wherein the non-zero coefficients in excess of 8 are stored in overflow vector 206.

Figures 11A through 11C are graphs illustrating the factors evaluated in determining the capacity of the fixed size blocks of the fixed size array and the overflow vector of the hybrid data structure in accordance with one embodiment of the invention. In Figure 11A, the average number of non-zero DCT coefficients per luminance block for two typical CIF sequences is depicted by lines 220 and 222. The number of non-zero DCT coefficients per block ranges from three to seven. That is, of the 64 coefficients, only 2-7 coefficients are non-zero coefficients on average. Using the information from Figure 11A as a guide, Figure 11B illustrates that as the fixed-size array increases, the size of the overflow vector decreases, thereby minimizing the insertion and deletion costs of the vector. Here line 220-1 corresponds to the CIF sequence of line 220 of Figure 11A, while line 222-1 corresponds to the CIF sequence of line 222 of Figure 11A. One skilled in the art will appreciate that as the fixed size array increases in terms of capacity, the memory compression decreases. Additionally, Figure 11C illustrates that the load factor of the array decreases as well, indicating that much of the array remains empty.

In one embodiment, a fixed-size array that holds 8 DCT coefficients per block is chosen. Here again, line 220-2 corresponds to the CIF sequence of line 220 of Figure 11A, while line 222-2 corresponds to the CIF sequence of line 222 of Figure 11A. This choice minimizes the size of the

overflow vector to about 200 DCT coefficients and maintains a load factor of between about 9% and about 15%. It will be apparent to one skilled in the art that the size of the fixed array is not limited to 8 coefficients per block and that any suitable number of coefficients per block may be chosen. Additionally, the individual blocks of the fixed size array may have any suitable configuration. For example, a block capable of holding 8 coefficients may be arranged as an 8 x 1 block, a 4 x 2 block, etc., while a block capable of holding 9 coefficients may be arranged as a 9 x 1 block, 3 x 3 block, etc.

Figure 12 is a flowchart of the method operations for reducing the memory requirements for decoding a bit stream, in accordance with one embodiment of the invention. The method initiates with operation 230 where a video bit stream is received. In one embodiment, the bit stream is a low rate bit stream. For example, the video stream may be associated with a video coding standard such as H.263, Motion Pictures Expert Group (MPEG-1/2/4), H.261, Joint Photographic Expert Group (JPEG), etc. The method then proceeds to operation 232 where the frame of the bit stream is decoded into a discrete cosine transform (DCT) domain representation for each block of data associated with the frame. Here, the video is processed through the first two stages of a decoder, such as the decoder of Figures 2, 6B and 15. That is, the video data is processed through the variable length decoder stage and the dequantization stage to decode the compressed bit stream into a DCT domain representation. It should be appreciated that the DCT domain representation is in a compressed state format. The frame is decoded one block at a time. The method then moves to operation 234 where the non-zero coefficients of the DCT domain representation are identified. Here, out of the 64 DCT coefficients associated with the DCT domain representation for a block of data, relatively few of the 64 DCT coefficients are typically non-zero coefficients.

Still referring to Figure 12, the method then moves to operation 236 where a hybrid data structure is assembled. The hybrid data structure includes a fixed size array and a variable size overflow vector. One exemplary hybrid data structure is the fixed size array that includes a plurality of fixed size block and the variable size overflow vector with reference to Figure 10. The method then proceeds to operation 238 where the non-zero coefficients of the DCT domain representation are inserted into the hybrid data structure. As mentioned with reference to Figure 10, the non-zero coefficients for a DCT domain representation for a block of video data are associated with a fixed size block in the fixed size array. If the number of non-zero coefficients exceeds the capacity of the fixed size block associated with the block of video data, then the remaining non-zero coefficients are stored in the variable size overflow vector. In one embodiment, an index table maps the data in the overflow vector back to the appropriate fixed size block in the fixed size array. Thus, the memory requirements are reduced through the hybrid data structure and the storage of the non-zero coefficients. More particularly, the memory requirements can be reduced by 50% without any loss of video quality.

It should be appreciated that the non-zero coefficients for each DCT domain representation associated with a frame of data are stored in the hybrid data structure. The stored data for the frame is then combined and decompressed for display. Once the next frame is decoded into a DCT domain representation to be stored in the hybrid data structure, the data in the hybrid data structure associated with the previous frame is flushed, in one embodiment. As will be explained further below, inverse motion compensation is performed on the stored data in the compressed domain. The inverse motion compensation uses integer approximation for full pixel inverse motion compensation and factorization for half pixel inverse

e motion compensation.

The main components in the spatial H.263 video decoder include runlength decoding, inverse DCT, and inverse motion compensation. Using a timing profiler, the performance of TELEOR'S H.263 video decoder on a 1.1 GHz Pentium 4 processor is measured for baseline data. Decoding a baseline video and ignoring system calls, the profiler measures the overall time it takes to decode 144 frames and details the timing characteristics of each component. Table 2 is a timing profile for the spatial H.263 video decoder and highlights the timing results for select functions.

**Table 2**

| Function                    | Function Time (ms) | Hit Count |
|-----------------------------|--------------------|-----------|
| Picture Display             | 772                | 144       |
| Inverse Motion Compensation | 243                | 56336     |
| Runlength Decoding          | 57                 | 39830     |
| Inverse DCT                 | 3                  | 42253     |

Table 3 is timing profile for the non-optimized compressed domain H.263 video decoder. One exemplary decoder pipeline configuration is the decoder with reference to Figure 2.

**Table 3**

| Function                    | Function Time (ms) | Hit Count |
|-----------------------------|--------------------|-----------|
| Inverse Motion Compensation | 9194               | 56336     |
| Picture Display             | 1547               | 144       |
| Runlength Decoding          | 32                 | 39830     |
| Inverse DCT                 | 652                | 340197    |

As shown in Table 2, the spatial domain video decoder takes about 1.2 seconds to decode 144 frames. The majority of the time is spent in the PictureDisplay function, which converts the color values of each frame from YUV to RGB in order to display it on a suitable operating system. A

uch as **WINDOWS<sup>TM</sup>**. Functions such as runlength decoding, inverse DCT, and inverse motion compensation take about 25% of the total time required to decode the video. Inverse motion compensation is especially fast in the spatial domain. Here, full pixel motion compensation simply sets a pointer to a position in memory or a frame buffer and copies a block of data, while half pixel motion compensation sets a pointer in memory and interpolates values using the shift operator. In contrast, Table 3 highlights some of the timing results for a non-optimized compressed domain video decoder. The non-optimized compressed domain decoder takes about 13.67 seconds to decode the same 144 frames.

The main bottleneck for the compressed domain decoder is the inverse motion compensation function. As described in Eq (8) above, full-pixel inverse motion compensation in the compressed domain requires a sum of four ( $TM_i$ ) terms, where  $TM_i$  is defined as pre- and post- multiplying the 8x8 matrix block  $F_i$  with transform matrix  $C_i$ .

$$F_i = TM_1 + TM_2 + TM_3 + TM_4 \quad (10)$$

$$\text{where } TM_i = C_{i1}F_iC_{i2} \quad (11)$$

Table 4 defines the full-pixel transform matrices  $C_i$ . Here,  $S$  represent the 8x8 DCT matrices, and  $U_k$  and  $L_k$  are defined in Equations 3-6 above.

Table 4

| Full-pixel transform matrix | Matrix definition |
|-----------------------------|-------------------|
| $C_{11} = C_{21}$           | $SU_hS'$          |
| $C_{31} = C_{41}$           | $SL_{s-h}S'$      |
| $C_{12} = C_{32}$           | $SL_wS'$          |
| $C_{22} = C_{42}$           | $SU_{s-w}S'$      |

Each 8x8 matrix multiplication requires 512 multiplies and 448 additions. As is known matrix multiplication is computationally expensive. Table 5 compares the optimization schemes, such as matrix approximation, matrix factorization, sharedblock for macroblocks, and a hybrid scheme for a compressed domain video pipeline such as the pipeline with reference to Figures 2, 6B and 15. The compressed domain video decoding pipeline should decode at a rate of about 15-25 frames per second (fps) in order to provide acceptable quality for handheld devices that support video formats such as the common intermediate format where each frame of data contains 352 lines with 288 pixels per line.

Table 5

| Optimization   | Decode Time (s) | # Frames | FPS   | Comments                                |
|----------------|-----------------|----------|-------|-----------------------------------------|
| Spatial domain | 9.79            | 144      | 14.71 | Original TELEOR H.263 video decoder.    |
| Matrix-matrix  | 14.17           | 144      | 10.16 | Full 8x8 matrix multiplications for TM. |
| Approximation  | 9.82            | 144      | 14.66 | Good time but poor PSNR.                |
| Factorization  | 12.95           | 144      | 11.12 | Good PSNR but poor time.                |
| Sharedblock    | 14.85           | 144      | 9.70  | No improvement here.                    |
| Hybrid         | 9.83            | 144      | 14.65 | Good time and good PSNR.                |

One enhancement to a compressed domain video decoding pipeline is to reduce the number of  $TM$  operations in Eq (10) by block alignment. For example, to decode 144 frames of a sequence and measure block alignment rates at 36.7% of all blocks. Figure 13 is a schematic diagram illustrating three examples of block alignment to reduce matrix multiplication. Block alignment case 240 where  $(w=8, h=4)$ , block alignment case 242 where  $(w=4, h=8)$ , and block alignment case 244 where  $(w=8, h=8)$  are each illustrated. In each of these examples 240, 242, and 244,  $TM$  operations are eliminated when the overlap with a corresponding block is zero. However, it should be appreciated that, in the DCT domain (compressed domain), block alignment does not yield savings when half-pixel interpolation is specified. The equations for half-pixel inverse motion compensation in the compressed domain are given below. For the example of  $(w=8, h=8)$ , half-pixel interpolation still requires four  $TM$  operations as illustrated in equations 12 and 13. Table 6 is provided for informational purposes to define the half pixel transform matrices  $C_{hp1j}$ .

$$F_{hpk} = TM_{hp1} + TM_{hp2} + TM_{hp3} + TM_{hp4} \quad (12)$$

$$TM_{hp1} = C_{hp11} F' C_{hp12} \quad (13)$$

Table 6

| Half-pixel transform matrix | Horizontal interpolation  | Vertical interpolation    | Horizontal & vertical     |
|-----------------------------|---------------------------|---------------------------|---------------------------|
| $C_{hp11} = C_{hp21}$       | $SU_h S'$                 | $S(U_h + U_{h+1}) S'$     | $S(U_h + U_{h+1}) S'$     |
| $C_{hp31} = C_{hp41}$       | $SL_{g-h} S'$             | $S(L_{g-h} + L_{g-h}) S'$ | $S(L_{g-h} + L_{g-h}) S'$ |
| $C_{hp12} = C_{hp22}$       | $S(L_w + L_{w+1}) S'$     | $SL_w S'$                 | $S(L_w + L_{w+1}) S'$     |
| $C_{hp22} = C_{hp42}$       | $S(U_{g-w} + U_{g-w}) S'$ | $SU_{g-w} S'$             | $S(U_{g-w} + U_{g-w}) S'$ |

It should be noted that even for a perfectly aligned DCT block, half-pixel interpolation creates an overlap of one with the neighboring blocks.

Figure 14 is a schematic diagram of a half pixel interpolation for a perfectly aligned DCT block. The half pixel interpolation creates overlapping into neighboring blocks by one pixel width and one pixel height.

Increasing the speed of processing in the compressed domain decoding pipeline may be accomplished by rearrangement of the functional blocks of the decoder of Figure 2. With reference to Tables 2 and 3, the processing time for the inverse DCT block is much less in the spatial domain (3 ms) than in the compressed domain (652 ms). In the spatial domain, inverse DCT is applied before the feedback loop to the intrablocks and the error coefficients. In particular, the intrablocks and error coefficients make up less than 15% of all the blocks in the video. The other 85% of the time the inverse DCT function is simply skipped. In the compressed domain, inverse DCT is applied at the last stage of the pipeline to 100% of the blocks in each frame of the video.

Figure 15 is a schematic diagram illustrating the rearrangement of the functional blocks of a compressed domain video decoder to enhance the processing of the video data in accordance with one embodiment of the invention. Here, the functional blocks are rearranged and the compressed domain pipeline is split at two points. The first split occurs after VLD 124 and DQ 126 at point (i) 252. In the upper branch, the pipeline keeps an internal DCT domain representation for memory compression 128. In the lower branch, the pipeline moves the RLD and IDCT up to the front to decode the error coefficients into the spatial domain. The second split occurs during motion compensation (MC) at point (ii) 254. During motion compensation, a spatial domain output may be generated according to equation (7). The output can be directly added to the error coefficients

to reconstruct the current block at point (iii) 256 to be presented on display 136. DCT block 250 is inserted in the feedback loop to maintain the interleaf DCT representation. The combination of RLD 132 and IDCT 134 at point (i) 252 and the DCT at point (ii) 254 requires less computation than the IDCT block at the last stage of the pipeline in Figure 2. Table 7 shows that the rearrangement with reference to Figure 15 generates a 20% speedup that can be combined in addition to other optimization schemes described herein.

Table 7

| Function                    | Percentage of Blocks | Comments                                                                            |
|-----------------------------|----------------------|-------------------------------------------------------------------------------------|
| IDCT in Figure 15 point (i) | 15%                  | Intrablocks and error coefficients represent small fraction of all blocks.          |
| DCT in Figure 15 point (ii) | 63%                  | Non-aligned blocks require DCT, but aligned blocks are directly copied without DCT. |
| IDCT in Figure 2            | 100%                 | Applied to all blocks in DCT domain.                                                |

In one embodiment, the inverse motion compensation is accelerated by reducing the number of multiplies required by the basic TM operation in Eqs. (11,13). Instead of calculating full 8x8 matrix multiplications, the DCT matrix  $S$  is factored into a sequence of sparse matrices as illustrated in Eq. 14. The sparse matrices in Eq. (17) include permutation matrices ( $A_1, A_2, A_3, A_4, A_5, A_6$ ) and diagonal matrices ( $D, M$ ). Substituting this factorization into Eq. (15), we derive a fully factored expression for  $TM_i$  in Eq. (16), which requires less multiplies than the original Eqs. (11,13).

$$S = DA_1A_2A_3MA_4A_5A_6 \quad (14)$$

$$TM_i = Sc_{i1}S'F'_iSc_{i2}S' \quad (15)$$

$$TM_i = (DA_1A_2A_3MA_4A_5A_6)c_{i1}(DA_1A_2A_3MA_4A_5A_6)'F'_i \quad (16)$$

$$(DA_1A_2A_3MA_4A_5A_6)c_{i2}(DA_1A_2A_3MA_4A_5A_6)'$$

$$D = \begin{bmatrix} & & & & & 0 \\ & & & & & \\ & & & & & \\ & & & & & \\ & & & & & \\ & & & & & \\ & & & & & \\ 0 & & & & & \end{bmatrix} \quad A_1 = \begin{bmatrix} 1 & & & & & \\ & 1 & & & & \\ & & 1 & & & \\ & & & 1 & & \\ & & & & 1 & \\ & & & & & 1 \end{bmatrix} \quad A_2 = \begin{bmatrix} 1 & & & & & 0 \\ & 1 & & & & \\ & & 1 & & & \\ & & & 1 & & \\ & & & & 1 & \\ & & & & & 1 \end{bmatrix} \quad A_3 = \begin{bmatrix} 1 & & & & & 0 \\ & 1 & & & & \\ & & 1 & & & \\ & & & 1 & & \\ & & & & 1 & \\ & & & & & 1 \end{bmatrix}$$

$$M = \begin{bmatrix} & & & & & \\ & & & & & \\ & & & & & \\ & & & & & \\ & & & & & \\ & & & & & \end{bmatrix} \quad A_4 = \begin{bmatrix} 1 & & & & & 0 \\ & 1 & & & & \\ & & 1 & & & \\ & & & 1 & & \\ & & & & 1 & \\ & & & & & 1 \end{bmatrix} \quad A_5 = \begin{bmatrix} 1 & & & & & 0 \\ & 1 & & & & \\ & & 1 & & & \\ & & & 1 & & \\ & & & & 1 & \\ & & & & & 1 \end{bmatrix} \quad A_6 = \begin{bmatrix} 1 & & & & & 0 \\ & 1 & & & & \\ & & 1 & & & \\ & & & 1 & & \\ & & & & 1 & \\ & & & & & 1 \end{bmatrix}$$

(17)

$$D = \text{diag}\{0.3536, 0.2549, 0.2706, 0.3007, 0.3536, 0.4500, 0.6533, 1.2814\} \quad (18)$$

$$A = 0.7071, B = 0.9239, C = 0.3827 \quad (19)$$

Thus, the matrix multiplication is replaced with matrix permutation. However, a fully factored expression for the term  $TM_i$ , as shown in Eq. (16), does not necessarily speed up inverse motion compensation. In essen-

ce, multiplies have been traded for memory accesses, and too many memory accesses can actually slow down the decoding process. Therefore, the matrices are regrouped to strike a balance between these competing functionalities. Matrix  $S$  ( $= G_0 G_1$ ) is factored into two terms:  $G_0 = DA_1 A_2 A_3$ , mixture of permutations and multiplications; and  $G_1 = MA_4 A_5 A_6$ , mixture of permutations and additions. The fixed matrices  $J_i$ ,  $K_i$  are defined and substituted into Eqs. (10 and 12) to form a factored expression for inverse motion compensation in Eq. (24):

$$J_h = c_{11} G'_1 = c_{21} G'_1, \quad J_w = G_1 c_{12} = G_1 c_{22} \quad (20)$$

$$K_h = c_{31} G'_1 = c_{41} G'_1, \quad K_w = G_1 c_{22} = G_1 c_{42} \quad (21)$$

Similarly for half-pixel interpolation:

$$J_h = c_{hp11} G'_1 = c_{hp21} G'_1, \quad J_w = G_1 c_{hp12} = G_1 c_{hp22} \quad (22)$$

$$K_h = c_{hp31} G'_1 = c_{hp41} G'_1, \quad K_w = G_1 c_{hp22} = G_1 c_{hp42} \quad (23)$$

$$F_k = S[J_h G'_0 F'_1 G_0 J_w + J_h G'_0 F'_2 G_0 K_w + K_h G'_0 F'_3 G_0 J_w + K_h G'_0 F'_4 G_0 K_w]S^t \quad (24)$$

Further speed enhancement may be obtained by implementing fast multiplication by the fixed matrices  $J_i$ ,  $K_i$ . The fixed matrices contain repeated structures. For example, the matrix  $J_6$  is defined as follows

$$J_6 = \begin{bmatrix} 1 & -1 & -a & 0 & b & a & c & 0 \\ 1 & 1 & -a & -1 & b & 0 & c & 0 \\ 1 & 1 & -a & -1 & -b & 0 & -c & 0 \\ 1 & -1 & -a & 0 & -b & -a & -c & 0 \\ 1 & -1 & a & 0 & c & -a & -b & 0 \\ 1 & 1 & a & 1 & c & 0 & -b & -1 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \end{bmatrix}$$

where  $a=0.7071$ ,  $b=0.9239$ , and  $c=0.3827$ . To compute  $u = J_6 v$ , where  $u = \{u_1, \dots, u_8\}$  and  $v = \{v_1, \dots, v_8\}$ , a sequence of equations is calculated accordi

ing to the following steps:

$$y_1 = v_1 + v_2 \quad (25)$$

$$y_2 = v_1 - v_2 \quad (26)$$

$$y_3 = \alpha v_3 \quad (27)$$

$$y_4 = \alpha v_6 \quad (28)$$

$$y_5 = y_1 - y_3 \quad (29)$$

$$y_6 = y_5 - y_4 \quad (30)$$

$$y_7 = y_3 - y_4 \quad (31)$$

$$y_8 = y_3 + y_4 \quad (32)$$

$$y_9 = (b+c)(v_3 + v_7) \quad (33)$$

$$y_{10} = cv_5 \quad (34)$$

$$y_{11} = bv_7 \quad (35)$$

$$y_{12} = y_9 - y_{10} - y_{11} \quad (36)$$

$$y_{13} = y_{10} - y_{11} \quad (37)$$

$$u_1 = y_2 - y_7 + y_{12} \quad (38)$$

$$u_2 = y_6 + y_{12} \quad (39)$$

$$u_3 = y_6 - y_{12} \quad (40)$$

$$u_4 = y_2 - y_8 - y_{12} \quad (41)$$

$$u_5 = y_2 + y_7 + y_{13} \quad (42)$$

$$u_6 = y_1 + y_3 + u_4 + y_{13} - u_8 \quad (43)$$

$$u_7 = 0 \quad (44)$$

$$u_8 = 0 \quad (45)$$

Accordingly, the matrix-vector multiplication has been transformed into a sequence of equations. The above sequence of equations requires 5 multiplications and 21 additions. The matrix multiplication  $J_a G' F'$  in Eq. (24) requires 104 multiplications and 164 additions. Thus, a 5 time reduction over the number of multiplies needed for matrix multiplication  $C_a F'$  in Eq. (8) is achieved here. Additionally, no precision is lost during this matrix operation, which uses 32-bit floating point arithmetic. However, with reference to Table 5, factorization speeds up the compressed domain pipeline by only 9% over matrix-matrix. Consequently, the extra memory accesses slow the frame rate to below the target rate of about 15 to about 25 fps so that factorization alone will not suffice.

To further speedup the inverse motion compensation the multiplies required by the basic TM operation in Eqs. (11,13) are eliminated. The full-pixel and half-pixel matrices  $C_y$  and  $C_{hp}$  are approximated to binary numbers to the nearest power of  $2^{-5}$ . By approximating these matrices with binary numbers, matrix multiplication can be performed by using basic integer operations, such as right-shift and add, to solve inverse motion compensation in Eqs. (10,12). For example, the full-pixel matrix  $C_{11}$  where  $h=1$  is examined below. It should be appreciated that the other matrices are approximated in a similar fashion.

$$C_{11} = \begin{bmatrix} 0.12501651 & -0.17338332 & 0.16332089 & \cdots & -0.03447659 \\ 0.17340284 & -0.24048958 & 0.22653259 & \cdots & -0.04782041 \\ 0.16334190 & -0.22653624 & 0.21338904 & \cdots & -0.04504584 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 0.03449197 & -0.04783635 & 0.04506013 & \cdots & -0.00951207 \end{bmatrix} \quad (46)$$

Where each element in the matrix is rounded to the nearest powers of 2, matrix (47) results:

$$\hat{C}_{11} = \begin{bmatrix} 0.1250 & -0.1875 & 0.1875 & \dots & -0.0625 \\ 0.1875 & -0.2500 & 0.2500 & \dots & -0.0625 \\ 0.1875 & -0.2500 & 0.1875 & \dots & -0.0625 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 0.0625 & -0.0625 & 0.0625 & \dots & 0 \end{bmatrix} \quad (47)$$

Since the DCT elements lie in the range of [-2048 to 2047], direct shifting of the DCT coefficients would drive most of the values to zero. In order to maintain precision in the intermediate results, we scale each DCT coefficient by  $2^8$  throughout the decoding pipeline. This scaling factor is introduced during the quantization and dequantization steps so that no extra operations are incurred.

Furthermore, we implement fast matrix multiplication by grouping terms according to the sum of products rule (see Eqs. (48-50)).

$$u_1 = 0.1250v_1 - 0.1875v_2 + 0.1875v_3 - 0.1250v_4 + 0.1250v_5 - 0.1250v_6 + 0.0625v_7 - 0.0625v_8 \quad (48)$$

$$u_1 = (v_1 >> 3) - (v_2 >> 3) - (v_2 >> 4) + (v_3 >> 3) + (v_3 >> 4) - (v_4 >> 3) + (v_5 >> 3) - (v_6 >> 3) + (v_7 >> 4) - (v_8 >> 4) \quad (49)$$

$$u_1 = (v_1 - v_2 + v_3 - v_4 + v_5 - v_6) >> 3 + (-v_2 + v_3 + v_5 - v_8) >> 4 \quad (50)$$

The computation for  $u = \hat{C}_{11}v$ , where  $u = \{u_1, \dots, u_8\}$  and  $v = \{v_1, \dots, v_8\}$ , may be calculated as:

$$u_1 = (v_1 - v_2 + v_3 - v_4 + v_5 - v_6) >> 3 + (-v_2 + v_3 + v_5 - v_8) >> 4 \quad (51)$$

$$u_2 = (v_3 - v_2) >> 2 + (v_1 - v_4 + v_5 - v_6 + v_7) >> 3 + (v_1 - v_4 + v_5 - v_8) >> 4 \quad (52)$$

$$u_3 = (v_1 + v_3 - v_4 + v_5 - v_6) >> 3 - (v_2 >> 2) + (v_1 + v_3 - v_4 + v_5 + v_7 - v_8) >> 4 \quad (53)$$

$$u_4 = (v_1 - v_2 + v_3 - v_4 + v_5 - v_6) >> 3 + (v_3 - v_2 - v_4 + v_7 - v_8) >> 4 \quad (54)$$

$$u_5 = (v_1 - v_2 + v_3 - v_4 + v_5 - v_6) >> 3 + (-v_2 + v_3 + v_7 - v_8) >> 4 \quad (55)$$

$$u_6 = (v_1 - v_2 + v_3 - v_4 + v_5) >> 3 + (v_7 - v_6) >> 4 \quad (56)$$

$$u_7 = (v_1 + v_3 - v_4 + v_5 - v_6 + v_7) >> 4 + (v_2) >> 3 \quad (57)$$

$$u_8 = (v_1 - v_2 + v_3 - v_4 + v_5) >> 4 \quad (58)$$

The matrix approximation requires a total of 17 right-shifts and 57 adds. The matrix approximation  $\hat{C}_n F'$  in Eq. (8) requires 136 right-shifts and 456 adds. Accordingly, a significant reduction in complexity over matrix multiplication is achieved with floating point precision. In fact, Table 5 shows that approximation techniques speed up the compressed domain pipeline by 31%, which is enough to achieve the target frame rate of about 15 fps. However, the PSNR for a sample video decreases and shows noticeable drift in areas of moderate motion.

A hybrid factorization/integer approximation for the transform matrix  $T$  that is selectively applied based upon the video motion provides the desired frame rate of between about 15 and about 25 fps, while maintaining acceptable quality. As mentioned above, the integer approximation technique reduces the complexity of the decoder but also reduces the PSNR of the decoded video. At the same time, the factorization method maintains good PSNR but does not reduce the complexity of the decoder to meet the desired frame rate. Through the integration of the low complexity of the integer approximation with the high precision of the factorization method a compressed domain video decoding pipeline for supporting a low rate video bit stream is obtained.

Two types of transform matrices have been discussed herein:  $TM_i$ , full pixel motion compensation illustrated in Eq. (11); and  $TM_{hpi}$ , half pixel motion compensation illustrated in Eq. (13). Full pixel motion compensation, using approximate matrices for  $TM_i$ , has only 28% of the computational complexity compared to that of using 8x8 floating point matrices. However, when applying the approximation techniques directly on the half pixel transform matrices,  $TM_{hpi}$ , it has been observed that half pixel motion compensation, using approximate matrices for  $TM_{hpi}$ , lowers the PSNR (see Table 8) and creates visible distortions in the decoded video. The errors are generated from two sources. First, the half pixel transform matrices  $TM_{hpi}$  are more sensitive to approximation techniques. With reference to Table 8,  $TM_{hpi}$  are composite matrices, composed of many more terms than  $TM_i$ . Secondly, as described above with reference to Figures 6A and 6B, the nonlinear processing during half pixel interpolation, combined with the errors generated by the approximation techniques, lead to an accumulation of errors that are especially visible in regions of moderate to high motion.

The selective application of the factorization method to the half pixel matrices addresses these errors. As discussed above, the factorization method maintains floating point precision so that the errors described can be minimized. For example, the factorization method reduces the matrix multiplication with  $TM_{hp}$  into a sequence of equations similar to those described in Eqs. (25-45). These equations maintain 32-bit floating point precision so that no approximation errors are generated. Furthermore, the factorization methods decode the DCT block into the spatial domain during motion compensation so that the optimizations described with reference to Figure 15 may be combined with those described here. Table 5 shows that the hybrid method meets our target frame rate of 15 fps, while Table 8 illustrates that the PNSR of the hybrid method provides an acceptable PSNR.

Table 8

| Video<br>(128 kbps, QCIF,<br>15 fps) | Compressed<br>Domain w/ Factor<br>TM (PSNR Y) | Compressed Domain<br>w/ Hybrid TM<br>(PSNR Y) | Compressed Domain<br>w/ Approximate TM<br>(PSNR Y) |
|--------------------------------------|-----------------------------------------------|-----------------------------------------------|----------------------------------------------------|
| Sample A                             | 25.53                                         | 25.53                                         | 22.65                                              |
| Sample B                             | 22.47                                         | 19.57                                         | 18.75                                              |
| Sample C                             | 30.79                                         | 30.66                                         | 29.90                                              |
| Sample D                             | 33.29                                         | 33.25                                         | 28.93                                              |
| Sample E                             | 31.27                                         | 31.10                                         | 28.89                                              |

Figure 16 is a flowchart diagram of the method operations for performing inverse motion compensation in the compressed domain in accordance with one embodiment of the invention. The method initiates with operation 260 where a frame of video data within a compressed bit stream is received. In one embodiment, the bit stream is a low rate bit stream. For example, the bit stream may be associated with a known video coding standard.

rd, such as MPEG 4, H.263, H.261, etc. The method then advances to operation 262 where a block of the frame of the bit stream is decoded into a discrete cosine transform (DCT) domain representation. Here, the video is processed through the first two stages of a decoder such as the decoder of Figures 2, 6B and 15. That is, the video data is processed through the variable length decoder stage and the dequantization stage to decode the compressed bit stream into a DCT domain representation. It should be appreciated that the DCT domain representation is in a compressed state format. The method then proceeds to operation 264 where the data associated with the DCT domain representation is stored in a hybrid data structure. A suitable hybrid data structure is the hybrid data structure discussed with reference to Figures 10 and 12. In one embodiment, the hybrid data structure reduces the memory requirements for a portable electronic device, e.g., cellular phone, PDA, web tablet, pocket personal computer, etc., having a display screen for presenting the video data.

Still referring to Figure 16, the method moves to operation 266 where inverse motion compensation is performed on the data associated with the DCT domain representation in the compressed domain. Here, the inverse motion compensation includes selectively applying a hybrid factorization/integer approximation technique described above with reference to Tables 5 and 8. The method then advances to decision operation 268 where the hybrid factorization/integer approximation identifies a type of transform matrix associated with the block of video data being processed. In one embodiment, the type of transform matrix is detected through information in a bit set of the bit stream being decoded. If the transform matrix is a half-pixel matrix then the method proceeds to operation 270 where a factorization technique is applied to decode the bit stream. In one embodiment, the factorization technique reduces matrix multiplication in

to a series of equations as described above with reference to equation 25-45. That is, matrix multiplication is replaced with matrix permutation. If the transform matrix is determined to be a full pixel matrix in decision operation 268, then the method advances to operation 272 where a integer approximation technique is applied to decode the bit stream. Here, the matrix multiplication may be performed by using basic integer operations to solve inverse motion compensation as discussed above with reference to equations 46-58. Thus, through the selective application of the hybrid factorization/integer approximation technique, processing in the compressed domain is performed to provide a sufficient frame rate with acceptable quality to enable the reduction in memory achieved through the hybrid data structure discussed above.

Figure 17 is a schematic diagram of the selective application of the hybrid factorization/integer approximation technique in accordance with one embodiment of the invention. Display screen 280 is configured to present images defined by low bit rate video. For example, display screen 280 may be associated with a portable electronic device e.g., a PDA, cellular phone, pocket personal computer, web tablet, etc. Ball 282 is moving in a vertical direction in the video. Blocks 284 are located around the perimeter of the moving object and are considered high or moderate motion areas and change from frame to frame. Blocks 286 represent the background and remain substantially the same from frame to frame. Thus, during the decoding of the compressed bit stream blocks 284 of a frame of data will be associated with high motion areas, from frame to frame, while blocks 286 remain substantially the same from frame to frame. Blocks 284 which are associated with the high motion areas, require higher precision during decoding techniques, i.e., factorization, while blocks 286 remain substantially the same and can tolerate a lower complexity interpolation method, i.e., integer approximation. Therefore, the factoriza-

tion technique is applied to the high and moderate motion area blocks 284 and the integer approximation is applied to background blocks 286. As mentioned above, information embedded in the bit stream is detected to determine whether a block is associated with high motion, i.e., half pixel motion compensation is applied through factorization, or if the block is background data, i.e., full pixel motion compensation is applied through integer approximation. In one embodiment, the motion vectors with reference to Figures 2, 6B, and 15 specify whether the motion compensation is half pixel or full pixel motion compensation.

It should be appreciated that the above described embodiments may be implemented in software or hardware. One skilled in the art will appreciate that the decoder can be embodied as a semiconductor chip that includes logic gates configured to provide the functionality discussed above. For example, a hardware description language (HDL), e.g., VERILOG, can be employed to synthesize the firmware and the layout of the logic gates for providing the necessary functionality described herein to provide a hardware implementation of the video decoder.

Figure 18 is a simplified schematic diagram of a portable electronic device having decoder circuitry configured to utilize hybrid data structures to minimize memory requirements and to apply a hybrid factorization/integer approximation technique to efficiently decode the bit stream data in accordance with one embodiment of the invention. Portable electronic device 290 includes central processing unit (CPU) 294, memory 292, display screen 136 and decoder circuitry 298, all in communication with each other over bus 296. Decoder circuitry 298 includes logic gates configured to provide the functionality to reduce memory requirements for the video processing and performing inverse motion compensation in the compressed domain as described above. It will be apparent to one skilled in the art that decoder circuitry 298 may include memory on a chip containi

ng the decoder circuitry or the memory may be located off-chip.

Figure 19 is a more detailed schematic diagram of the decoder circuitry of Figure 18 in accordance with one embodiment of the invention. Incoming bit stream 122 is received by variable length decoder (VLD) circuitry 300 of decoder 298. One skilled in the art will appreciate that decoder circuitry 298 may be placed on a semiconductor chip disposed on a printed circuit board. VLD circuitry 300 is in communication with dequantization circuitry 302. VLD circuitry 300 provides motion vector signals to motion compensation circuitry 306. Video processing memory 308 stores an internal representation of the video from dequantization circuitry 302 that is in the compressed domain. DCT circuitry 304 maintains the internal DCT representation of the video from motion compensation circuitry 306. Run length decode (RLD) circuitry 310 and inverse discrete cosine transform (IDCT) circuitry 312 decompress the video data for presentation on display screen 136. It should be appreciated that the circuitry blocks described herein provide the similar functionality to the blocks/stages described with reference to Figures 2, 6B and 15.

In summary, the above described invention provides a compressed domain video decoder that reduces the amount of video memory and performs inverse motion compensation in the compressed domain. Memory reduction is achieved by hybrid data structures configured to store and manipulate non-zero DCT coefficients of the reference frame to define a current frame. The hybrid data structure includes a fixed size array having fixed size blocks associated with each block of a frame of video data. A variable size overflow vector is included in the hybrid data structure to accommodate non-zero coefficients in excess of the capacity of the fixed size blocks. The amount of memory compression achieved through the compressed domain video decoder is up to two times as compared to a spatial domain video decoder. The inverse motion compensation for the compressed dom

ain video decoder has been optimized to provide about 15-25 frames per second of acceptable quality video. A hybrid factorization/integer approximation is selectively applied to blocks being decoded. The criteria for determining which interpolation of the factorization/integer approximation technique to apply is based upon the transform matrix, i.e., factorization is applied to half pixel matrices, while integer approximation is applied to full pixel matrices. It should be appreciated that the compressed domain pipeline described herein may be incorporated into an MPEG-4 simple profile video decoder in one embodiment. Furthermore, the embodiments enable a variety of applications to be pursued, e.g., power-scalable decoding on battery-operated (CPU constrained) devices and compositing for video conferencing systems.

With the above embodiments in mind, it should be understood that the invention may employ various computer-implemented operations involving data stored in computer systems. These operations include operations requiring physical manipulation of physical quantities. Usually, though not necessarily, these quantities take the form of electrical or magnetic signals capable of being stored, transferred, combined, compared, and otherwise manipulated. Further, the manipulations performed are often referred to in terms, such as producing, identifying, determining, or comparing.

The above described invention may be practiced with other computer system configurations including hand-held devices, microprocessor systems, microprocessor-based or programmable consumer electronics, minicomputers, mainframe computers and the like. The invention may also be practiced in distributing computing environments where tasks are performed by remote processing devices that are linked through a communications network.

The invention can also be embodied as computer readable code on a compu

ter readable medium. The computer readable medium is any data storage device that can store data which can be thereafter read by a computer system. Examples of the computer readable medium include hard drives, network attached storage (NAS), read-only memory, random-access memory, CD-ROMs, CD-Rs, CD-RWs, magnetic tapes, and other optical and non-optical data storage devices. The computer readable medium can also be distributed over a network coupled computer system so that the computer readable code is stored and executed in a distributed fashion. The computer readable medium may also be an electromagnetic carrier wave in which the computer code is embodied.

Although the foregoing invention has been described in some detail for purposes of clarity of understanding, it will be apparent that certain changes and modifications may be practiced within the scope of the appended claims. Accordingly, the present embodiments are to be considered as illustrative and not restrictive, and the invention is not to be limited to the details given herein, but may be modified within the scope and equivalents of the appended claims. In the claims, elements and/or steps do not imply any particular order of operation, unless explicitly stated in the claims.

#### 4. Brief Description of the Drawings

The present invention will be readily understood by the following detailed description in conjunction with the accompanying drawings, and like reference numerals designate like structural elements.

Figure 1 is a schematic diagram of a video decoder for decoding video data and performing motion compensation in the spatial domain.

Figure 2 is a schematic diagram of a video decoder arranged such that inverse motion compensation is performed in the compressed domain in acco

rdance with one embodiment of the invention.

Figure 3 is a schematic diagram illustrating inverse motion compensation as performed in the spatial domain.

Figure 4 is a graph illustrating the peak signal to noise ratio (PSNR) for a plurality of frames to demonstrate the effectiveness of a forced update mechanism associated with the H.263 standard.

Figure 5 is a schematic diagram illustrating the determination of half pixel values in the H.263 standard.

Figure 6A is a schematic diagram of a baseline spatial video decoder.

Figure 6B is a schematic diagram of a compressed domain video decoder in accordance with one embodiment of the invention.

Figure 7 is a block diagram illustrating the block transformations during the video encoding and decoding process in accordance with one embodiment of the invention.

Figure 8 is a schematic diagram illustrating the use of a separate index to find the starting position of each 8x8 block in a runlength representation.

Figures 9A and 9B illustrate the sort and merge operations needed to add the prediction error to the prediction for an array-based data structure and a list data structure, respectively.

Figure 10 is a schematic diagram of a hybrid data structure including an array structure and a vector structure to allow for memory compression and computational efficiency in accordance with one embodiment of the invention.

Figures 11A through 11C are graphs illustrating the factors evaluated in determining the capacity of the fixed size blocks of the fixed size array and the overflow vector of the hybrid data structure in accordance with one embodiment of the invention.

Figure 12 is a flowchart of the method operations for reducing the memo-

ry requirements for decoding a bit stream in accordance with one embodiment of the invention.

Figure 13 is a schematic diagram illustrating three examples of block alignment to reduce matrix multiplication.

Figure 14 is a schematic diagram of a half pixel interpolation for a perfectly aligned DCT block.

Figure 15 is a schematic diagram illustrating the rearrangement of the functional blocks of a compressed domain video decoder to enhance the processing of the video data in accordance with one embodiment of the invention.

Figure 16 is a flowchart diagram of the method operations for performing inverse motion compensation in the compressed domain in accordance with one embodiment of the invention.

Figure 17 is a schematic diagram of the selective application of the hybrid factorization/integer approximation technique in accordance with one embodiment of the invention.

Figure 18 is a simplified schematic diagram of a portable electronic device having decoder circuitry configured to utilize hybrid data structures to minimize memory requirements and to apply a hybrid factorization/integer approximation technique to efficiently decode the bit stream data in accordance with one embodiment of the invention.

Figure 19 is a more detailed schematic diagram of the decoder circuitry of Figure 18 in accordance with one embodiment of the invention.

[Fig.1]



[Fig. 2]



[Fig. 3]

